Deep Neural Network Là Gì - Muốn Biết Cách Thức Hoạt Động Của Deep Learning

Bài trước học về thuật toán logistic regression với cái giá trị áp ra output là nhị phân. Mặc dù nhiên, logistic regression là một quy mô neural network 1-1 giản, bài bác này đã học mô hình neural network đầy đủ.Bạn vẫn xem: Deep neural network là gì

Bạn nên hoàn thành 2 bài xích trước linear regression với logistic regression trước lúc vào bài này. Trong bài này có không ít kí hiệu và công thức, nên các bạn nên sẵn sàng giấy cây bút để bắt đầu.

Bạn đang xem: Deep neural network là gì

Neural network là gì

Con chó có thể phân biệt được người thân trong gia đình trong gia đình và fan lạ xuất xắc đứa trẻ hoàn toàn có thể phân biệt được các con vật. Hồ hết việc tưởng chừng như rất đơn giản dễ dàng nhưng lại cực kì khó để tiến hành bằng sản phẩm công nghệ tính. Vậy sự biệt lập nằm nghỉ ngơi đâu? Câu vấn đáp nằm ở bộ não với lượng lớn những nơ-ron thần kinh links với nhau. Cố thì máy vi tính có đề nghị mô rộp lại quy mô ấy để giải những bài toán trên ???

Neural là tính từ bỏ của neuron (nơ-ron), network chỉ cấu tạo đồ thị đề nghị neural network (NN) là 1 hệ thống giám sát và đo lường lấy cảm hứng từ sự hoạt động vui chơi của các nơ-ron trong hệ thần kinh.

Hoạt động của những nơ-ron

Để màn trình diễn gọn lại ta đang gộp hai cách trên thành một bên trên biểu đồ

Mô hình neural network

Layer trước tiên là input đầu vào layer, các layer trung tâm được điện thoại tư vấn là hidden layer, layer cuối cùng được call là output đầu ra layer. Các hình trụ được call là node.

Mỗi mô hình luôn có một input layer, 1 đầu ra layer, rất có thể có hoặc không những hidden layer. Tổng số layer trong quy mô được quy mong là số layer – 1 (Không tính input đầu vào layer).

Ví dụ như làm việc hình trên có một input layer, 2 hidden layer cùng 1 đầu ra layer. Số lượng layer của quy mô là 3 layer.

Mỗi node vào hidden layer cùng output layer :

Liên kết với toàn bộ các node sinh hoạt layer trước kia với những hệ số w riêng.Mỗi node có 1 hệ số bias b riêng.Diễn ra 2 bước: tính tổng linear và áp dụng activation function.

Kí hiệu

Số node vào hidden layer sản phẩm i là l^(i).

Ma trận W^(k) kích thước l^(k-1) * l^(k) là ma trận thông số giữa layer (k-1) cùng layer k, trong các số ấy w_ij^(k) là hệ số kết nối từ node trang bị i của layer k-1 cho node máy j của layer k.

Vector b^(k) size l^k * 1 là hệ số bias của những node trong layer k, trong số ấy b_i^(k) là bias của node máy i vào layer k.

Với node máy i trong layer l bao gồm bias b_i^(l)thực hiện 2 bước:

Tính tổng linear: z_i^(l) = sum_j=1^l^(l-1) a_j^(l-1) * w_ji^(l) + b_i^(l) , là tổng tất cả các node vào layer trước nhân với thông số w tương ứng, rồi cộng với bias b.Áp dụng activation function: a_i^(l) = sigma(z_i^(l))

Vector z^(k) kích thước l^(k) * một là giá trị những node vào layer k sau bước tính tổng linear.

Vector a^(k) kích cỡ l^(k) * một là giá trị của những node trong layer k sau khi áp dụng hàm activation function.

Tương trường đoản cú ta có:

z^(2) = (W^(2))^T * a^(1) + b^(2) ewline a^(2) = sigma(z^(2)) ewline z^(3) = (W^(3))^T * a^(2) + b^(3) ewline haty = a^(3) = sigma(z^(3))

Do đó

Giờ từ input X ta hoàn toàn có thể tính giá tốt trị dự kiến hatY, tuy vậy việc chủ yếu cần làm cho là đi tìm kiếm hệ số W với b. Hoàn toàn có thể nghĩ ngay lập tức tới thuật toán gradient descent với việc đặc biệt nhất trong thuật toán gradient descent là đi tìm kiếm đạo hàm của những hệ số so với loss function. Và vấn đề tính đạo hàm của các hệ số vào neural network được triển khai bởi thuật toán backpropagation, đã được ra mắt ở bài sau. Với vì bài xích này có rất nhiều công thức hại mọi fan rối cần code sẽ được để ở bài bác sau.

Xem thêm: Nghĩa Của Từ Ta Là Viết Tắt Của Từ Gì ? Ta Là Viết Tắt Của Từ Gì

Logistic regression với toán tử XOR

Phần này không bắt buộc, nó giúp lý giải việc có khá nhiều layer hơn nữa thì mô hình có vẻ như sẽ xử lý được các bài toán phức tạp hơn. Cụ thể là mô hình logistic regresion bài trước không màn trình diễn được toán tử XOR nhưng nếu thêm một hidden layer với 2 node trọng điểm input layer cùng output layer thì có thể biểu diễn được toán tử XOR.

AND, OR, XOR là các phép toán triển khai phép tính bên trên bit. Cố bit là gì? bạn không bắt buộc quan tâm, chỉ cần phải biết mỗi bit nhận 1 trong 2 quý giá là 0 hoặc 1.

NOT

Phép tính NOT của một bit cho ra giá trị ngược lại.

A	NOT(A)
1	0
0	1

AND

Phép tính & của 2 bit mang đến giá trị 1 nếu cả hai bit bằng 1 và cho giá trị bằng 0 trong số trường vừa lòng còn lại. Bảng chân lý

A	B	A & B
0	0	0
0	1	0
1	0	0
1	1	1

Giờ muốn máy tính xách tay học toán tử AND, ta thấy là kết quả là 0 với 1, phải nghĩ ngay đến logistic regression với dữ liệu

x_1	x_2	y
0	0	0
0	1	0
1	0	0
1	1	1

Hình 1: x_1 & x_2
Hình 2: NOT (x_1 & x_2)

OR

Phép tính OR của 2 bit đến giá trị 1 nếu 1 trong các 2 bit bằng 1 và đến giá trị bởi 0 trong số trường đúng theo còn lại. Bảng chân lý

A	B	A OR B
0	0	0
0	1	1
1	0	1
1	1	1

Tương từ bỏ ta cũng tìm được w_0 = -0.5, w_1 = 1, w_2 = 1

Mô hình XOR

Nhìn dường như rối nhỉ, cùng phân tích nhé:

node NOT(x_1 and x_2) đó là từ hình 2, với 3 mũi thương hiệu chỉ tới từ 1, x_1, x_2 với thông số w_0, w_1, w_2 tương xứng là 1.5, -1, -1.node tính x_1 OR x_2 là từ bỏ hình 3 node trong output layer là phép tính and từ 2 node của layer trước, giá chỉ trị thông số từ hình 1 có xuống.

Nhận xét: quy mô logistic regression không xử lý được vấn đề XOR mà lại mô mình mới thì giải quyết và xử lý được bài toán XOR. Đâu là sự khác nhau:

Logistic regression chỉ tất cả từ input layer cùng output layerMô hình mới có một hidden layer bao gồm 2 node ở giữa input layer cùng output layer

=> Có vẻ càng những layer với node thì càng giải quyết và xử lý được những bài toán phức hợp hơn.