Chương 9: Học máy
Các nút trong cây quyết định biểu diễn cho một sự kiểm tra trên một thuộc tính nào đó, mỗi
giá trị có thể có của thuộc tính đó tương ứng với một nhánh của cây. Các nút lá thể hiện sự
phân loại của các ví dụ thuộc nhánh đó, hay chính là giá trị của thuộc tính phân loại.
Sau khi giải thuật đã quy nạp được cây quyết định, thì cây này sẽ được sử dụng để phân loại
tất cả các ví dụ hay thể hiện (instance) trong tương lai. Và cây quyết định sẽ không thay đổi
cho đến khi ta cho thực hiện lại giải thuật ID3 trên một tập dữ liệu rèn luyện khác.
Ứng với một tập dữ liệu rèn luyện sẽ có nhiều cây quyết định có thể phân loại đúng tất cả
các ví dụ trong tập dữ liệu rèn luyện. Kích cỡ của các cây quyết định khác nhau tùy thuộc
vào thứ tự của các kiểm tra trên thuộc tính.
Vậy làm sao để học được cây quyết định có thể phân loại đúng tất cả các ví dụ trong tập rèn
luyện? Một cách tiếp cận đơn giản là học thuộc lòng tất cả các ví dụ bằng cách xây dựng một
cây mà có một lá cho mỗi ví dụ. Với cách tiếp cận này thì có thể cây quyết định sẽ không
phân loại đúng cho các ví dụ chưa gặp trong tương lai. Vì phương pháp này cũng giống như
hình thức ‘học vẹt’, mà cây không hề học được một khái quát nào của khái niệm cần học.
Vậy, ta nên học một cây quyết định như thế nào là tốt?
Occam’s razor và một số lập luận khác đều cho rằng ‘giả thuyết có khả năng nhất là giả
thuyết đơn giản nhất thống nhất với tất cả các quan sát’, ta nên luôn luôn chấp nhận những
câu trả lời đơn giản nhất đáp ứng một cách đúng đắn dữ liệu của chúng ta. Trong trường hợp
này là các giải thuật học cố gắng tạo ra cây quyết định nhỏ nhất phân loại một cách đúng đắn
tất cả các ví dụ đã cho. Trong phần kế tiếp, chúng ta sẽ đi vào giải thuật ID3, là một giải
thuật quy nạp cây quyết định đơn giản thỏa mãn các vấn đề vừa nêu.
II.2 Giải thuật ID3 xây dựng cây quyết định từ trên–xuống
ID3 xây dựng cây quyết định (cây QĐ) theo cách từ trên xuống. Lưu ý rằng đối với bất kỳ
thuộc tính nào, chúng ta cũng có thể phân vùng tập hợp các ví dụ rèn luyện thành những tập
con tách rời, mà ở đó mọi ví dụ trong một phân vùng (partition) có một giá trị chung cho
thuộc tính đó. ID3 chọn một thuộc tính để kiểm tra tại nút hiện tại của cây và dùng trắc
nghiệm này để phân vùng tập hợp các ví dụ; thuật toán khi đó xây dựng theo cách đệ quy
một cây con cho từng phân vùng. Việc này tiếp tục cho đến khi mọi thành viên của phân
vùng đều nằm trong cùng một lớp; lớp đó trở thành nút lá của cây.
Vì thứ tự của các trắc nghiệm là rất quan trọng đối với việc xây dựng một cây QĐ đơn giản,
ID3 phụ thuộc rất nhiều vào tiêu chuẩn chọn lựa trắc nghiệm để làm gốc của cây. Để đơn
giản, phần này chỉ mô tả giải thuật dùng để xây dựng cây QĐ, với việc giả định một hàm
chọn trắc nghiệm thích hợp. Phần kế tiếp sẽ trình bày heuristic chọn lựa của ID3.
Ví dụ, hãy xem xét cách xây dựng cây QĐ của ID3 trong hình sau từ tập ví dụ rèn luyện
trong bảng 9.1.
Võ Huỳnh Trâm – Trần Ngân Bình 157
Giáo Trình Trí Tuệ Nhân Tạo
+ : D3, D4, D5, D7, D9, D10, D11, D12, D13
–
: D1, D2, D6, D8, D14
Quang cảnh?
+ : D9, D11
–
: D1, D2, D8
+ : D3, D7, D12, D13
–
:
+ : D3, D5, D10
–
: D6, D14
Nắng
Âm u
Mưa
Hình 9.2 - Một phần cây quyết định xây dựng được
Bắt đầu với bảng đầy đủ gồm 14 ví dụ rèn luyện, ID3 chọn thuộc tính quang cảnh để làm
thuộc tính gốc sử dụng hàm chọn lựa thuộc tính mô tả trong phần kế tiếp. Trắc nghiệm này
phân chia tập ví dụ như cho thấy trong hình 9.2 với phần tử của mỗi phân vùng được liệt kê
bởi số thứ tự của chúng trong bảng.
* ID3 xây dựng cây quyết định theo giải thuật sau:
Function induce_tree(tập_ví_dụ, tập_thuộc_tính)
begin
if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then
return một nút lá được gán nhãn bởi lớp đó
else if tập_thuộc_tính là rỗng then
return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong tập_ví_dụ
else begin
chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;
xóa P ra khỏi tập_thuộc_tính;
với mỗi giá trị V của P
begin
tạo một nhánh của cây gán nhãn V;
Đặt vào phân_vùng
V
các ví dụ trong tập_ví_dụ có giá trị V tại thuộc
tính P;
Gọi induce_tree(phân_vùng
V
, tập_thuộc_tính), gắn kết quả vào nhánh
V
end
end
end
ID3 áp dụng hàm induce_tree một cách đệ quy cho từng phân vùng. Ví dụ, phân vùng của
nhánh “Âm u” có các ví dụ toàn dương, hay thuộc lớp ‘Có’, nên ID3 tạo một nút lá với nhãn
là lớp ‘Có’. Còn phân vùng của hai nhánh còn lại vừa có ví dụ âm, vừa có ví dụ dương. Nên
tiếp tục chọn thuộc tính “Độ ẩm” để làm trắc nghiệm cho nhánh Nắng, và thuộc tính Gió cho
nhánh Mưa, vì các ví dụ trong các phân vùng con của các nhánh cây này đều thuộc cùng một
lớp, nên giải thuật ID3 kết thúc và ta có được cây QĐ như hình 9.3.
158 Võ Huỳnh Trâm – Trần Ngân Bình
Chương 9: Học máy
+ : D3, D4, D5, D7, D9, D10, D11, D12, D13
– : D1, D2, D6, D8, D14
Quang cảnh?
+ : D9, D11
– : D1, D2, D8
+ : D3, D7, D12, D13
–:
+ : D3, D5, D10
–: D6, D14
Nắng
Âm u
Mưa
Yes
Độ ẩm? Gió?
+ :
– : D1, D2, D8
+ : D9, D11
– :
+ :
–:D6, D14
+ : D4, D5, D10
Cao
TB
Mạnh
Nhẹ
Yes NoYes No
Hình 9.3 - Cây quyết định đã xây dựng xong.
Lưu ý, để phân loại một ví dụ, có khi cây QĐ không cần sử dụng tất cả các thuộc tính đã
cho, mặc dù nó vẫn phân loại đúng tất cả các ví dụ.
Võ Huỳnh Trâm – Trần Ngân Bình 159
Giáo Trình Trí Tuệ Nhân Tạo
* Các khả năng có thể có của các phân vùng (partition):
Trong quá trình xây dựng cây QĐ, phân vùng của một nhánh mới có thể có các dạng sau:
1. Có các ví dụ thuộc các lớp khác nhau, chẳng hạn như có cả ví dụ âm và dương như phân
vùng “Quang cảnh = Nắng” của ví dụ trên => giải thuật phải tiếp tục tách một lần nữa.
2. Tất cả các ví dụ đều thuộc cùng một lớp, chẳng hạn như toàn âm hoặc toàn dương như
phân vùng “Quang cảnh = Âm u” của ví dụ trên => giải thuật trả về nút lá với nhãn là lớp đó.
3. Không còn ví dụ nào => giải thuật trả về mặc nhiên
4. Không còn thuộc tính nào => nghĩa là dữ liệu bị nhiễu, khi đó giải thuật phải sử dụng một
luật nào đó để xử lý, chẳng hạn như luật đa số (lớp nào có nhiều ví dụ hơn sẽ được dùng để
gán nhãn cho nút lá trả về).
Từ các nhận xét này, ta thấy rằng để có một cây QĐ đơn giản, hay một cây có chiều cao là
thấp, ta nên chọn một thuộc tính sao cho tạo ra càng nhiều các phân vùng chỉ chứa các ví dụ
thuộc cùng một lớp càng tốt. Một phân vùng chỉ có ví dụ thuộc cùng một lớp, ta nói phân
vùng đó có tính thuần nhất. Vậy, để chọn thuộc tính kiểm tra có thể giảm thiểu chiều sâu của
cây QĐ, ta cần một phép đo để đo tính thuần nhất của các phân vùng, và chọn thuộc tính
kiểm tra tạo ra càng nhiều phân vùng thuần nhất càng tốt. ID3 sử dụng lý thuyết thông tin để
thực hiện điều này.
II.3 Thuộc tính nào là thuộc tính dùng để phân loại tốt nhất?
Quinlan (1983) là người đầu tiên đề xuất việc sử dụng lý thuyết thông tin để tạo ra các cây
quyết định và công trình của ông là cơ sở cho phần trình bày ở đây. Lý thuyết thông tin của
Shannon (1948) cung cấp khái niệm entropy để đo tính thuần nhất (hay ngược lại là độ pha
trộn) của một tập hợp. Một tập hợp là thuần nhất nếu như tất cả các phần tử của tập hợp đều
thuộc cùng một loại, và khi đó ta nói tập hợp này có độ pha trộn là thấp nhất. Trong trường
hợp của tập ví dụ, thì tập ví dụ là thuần nhất nếu như tất cả các ví dụ đều có cùng giá trị phân
loại.
Khi tập ví dụ là thuần nhất thì có thể nói: ta biết chắc chắn về giá trị phân loại của một ví dụ
thuộc tập này, hay ta có lượng thông tin về tập đó là cao nhất. Khi tập ví dụ có độ pha trộn
cao nhất, nghĩa là số lượng các ví dụ có cùng giá trị phân loại cho mỗi loại là tương đương
nhau, thì khi đó ta không thể đoán chính xác được một ví dụ có thể có giá trị phân loại gì,
hay nói khác hơn, lượng thông tin ta có được về tập này là ít nhất. Vậy, điều ta mong muốn ở
đây là làm sao chọn thuộc tính để hỏi sao cho có thể chia tập ví dụ ban đầu thành các tập ví
dụ thuần nhất càng nhanh càng tốt. Vậy trước hết, ta cần có một phép đo để đo độ thuần nhất
của một tập hợp, từ đó mới có thể so sánh tập ví dụ nào thì tốt hơn. Phần kế tiếp sẽ trình bày
công thức tính entropy của một tập hợp.
160 Võ Huỳnh Trâm – Trần Ngân Bình
Chương 9: Học máy
II.3.1 Entropy đo tính thuần nhất của tập ví dụ
Khái niệm entropy của một tập S được định nghĩa trong Lý thuyết thông tin là số lượng
mong đợi các bít cần thiết để mã hóa thông tin về lớp của một thành viên rút ra một cách
ngẫu nhiên từ tập S. Trong trường hợp tối ưu, mã có độ dài ngắn nhất. Theo lý thuyết thông
tin, mã có độ dài tối ưu là mã gán –log
2
p bits cho thông điệp có xác suất là p.
Trong trường hợp S là tập ví dụ, thì thành viên của S là một ví dụ, mỗi ví dụ thuộc một lớp
hay có một giá trị phân loại.
Entropy có giá trị nằm trong khoảng [0 1],
Entropy(S) = 0 Ù tập ví dụ S chỉ toàn ví dụ thuộc cùng một loại, hay S là thuần nhất.
Entropy(S) = 1 Ù tập ví dụ S có các ví dụ thuộc các loại khác nhau với độ pha trộn là cao
nhất.
0 < Entropy(S) < 1 Ù tập ví dụ S có số lượng ví dụ thuộc các loại khác nhau là không bằng
nhau.
Để đơn giản ta xét trường hợp các ví dụ của S chỉ thuộc loại âm (-) hoặc dương (+).
Hình 9.4 minh họa sự phụ thuộc của giá trị entropy vào xác suất xuất hiện của ví dụ dương.
Cho trước:
• Tập S là tập dữ liệu rèn luyện, trong đó
thuộc tính phân loại có hai giá trị, giả sử
là âm (-) và dương (+)
• p
+
là phần các ví dụ dương trong tập S.
• p_ là phần các ví dụ âm trong tập S.
Khi đó, entropy đo độ pha trộn của tập S theo
công thức sau:
−−++
−−= ppppSEntropy
22
loglog)(
Một cách tổng quát hơn, nếu các ví dụ của
tập S thuộc nhiều hơn hai loại, giả sử là có c giá trị phân loại thì công thức entropy tổng
quát là:
Hình 9.4 - Entropy(S)
∑
=
−=
c
i
ii
ppSEntropy
1
2
log)(
II.3.2 Lượng thông tin thu được đo mức độ giảm entropy mong đợi
Entropy là một số đo đo độ pha trộn của một tập ví dụ, bây giờ chúng ta sẽ định nghĩa một
phép đo hiệu suất phân loại các ví dụ của một thuộc tính. Phép đo này gọi là lượng thông tin
Võ Huỳnh Trâm – Trần Ngân Bình 161
Giáo Trình Trí Tuệ Nhân Tạo
thu được, nó đơn giản là lượng giảm entropy mong đợi gây ra bởi việc phân chia các ví dụ
theo thuộc tính này.
Một cách chính xác hơn, Gain(S,A) của thuộc tính A, trên tập S, được định nghĩa như sau:
∑
−= )(
||
||
)(),(
v
v
SEntropy
S
S
SEntropyASGain
∈ )( AValuesv
trong đó Values(A) là tập hợp có thể có các giá trị của thuộc tính A, và S
v
là tập con của S
chứa các ví dụ có thuộc tính A mang giá trị v.
Câu hỏi :
Áp dụng giải thuật ID3 kết hợp với công thức entropy và gain để tạo ra cây quyết
định
đơn giản nhất cho bài toán phân loại xem ta ‘có đi chơi tennis’ từ tập dữ liệu rèn
luyện
đã cho trong bảng 9.1.
II.4 Tìm kiếm không gian giả thuyết trong ID3
Cũng như các phương pháp học quy nạp khác, ID3 cũng tìm kiếm trong một không gian các
giả thuyết một giả thuyết phù hợp với tập dữ liệu rèn luyện. Không gian giả thuyết mà ID3
tìm kiếm là một tập hợp các cây quyết định có thể có. ID3 thực hiện một phép tìm kiếm từ
đơn giản đến phức tạp, theo giải thuật leo-núi (hill climbing), bắt đầu từ cây rỗng, sau đó dần
dần xem xét các giả thuyết phức tạp hơn mà có thể phân loại đúng các ví dụ rèn luyện. Hàm
đánh giá được dùng để hướng dẫn tìm kiếm leo núi ở đây là phép đo lượng thông tin thu
được.
Từ cách nhìn ID3 như là một giải thuật
tìm kiếm trong không gian các giả
thuyết, ta có một số nhận xét như sau:
• Không gian giả thuyết các cây quyết
định của ID3 là một không gian đầy
đủ các cây quyết định trên các thuộc
tính đã cho trong tập rèn luyện. Điều
này có nghĩa là không gian mà ID3
tìm kiếm chắc chắn có chứa cây
quyết định cần tìm.
• Trong khi tìm kiếm, ID3 chỉ duy trì
một giả thuyết hiện tại. Vì vậy, giải
thuật này không có khả năng biểu
diễn được tất cả các cây quyết định
khác nhau có khả năng phân loại
đúng dữ liệu hiện có.
Hình 9.5 - Không gian tìm kiếm của ID3.
• Giải thuật thuần ID3 không có khả
năng quay lui trong khi tìm kiếm. Vì vậy, nó có thể gặp phải những hạn chế giống như
giải thuật leo núi, đó là hội tụ về cực tiểu địa phương.
162 Võ Huỳnh Trâm – Trần Ngân Bình
Chương 9: Học máy
• Vì ID3 sử dụng tất cả các ví dụ ở mỗi bước để đưa ra các quyết định dựa trên thống kê,
nên kết quả tìm kiếm của ID3 rất ít bị ảnh hưởng bởi một vài dữ liệu sai (hay dữ liệu
nhiễu).
• Trong quá trình tìm kiếm, giải thuật ID3 có xu hướng chọn cây quyết định ngắn hơn là
những cây quyết định dài. Đây là tính chất thiên lệch quy nạp của ID3.
II.5 Đánh giá hiệu suất của cây quyết định:
Một cây quyết định sinh ra bởi ID3 được đánh giá là tốt nếu như cây này có khả năng phân
loại đúng được các trường hợp hay ví dụ sẽ gặp trong tương lai, hay cụ thể hơn là có khả
năng phân loại đúng các ví dụ không nằm trong tập dữ liệu rèn luyện.
Để đánh giá hiệu suất của một cây quyết định người ta thường sử dụng một tập ví dụ tách
rời, tập này khác với tập dữ liệu rèn luyện, để đánh giá khả năng phân loại của cây trên các
ví dụ của tập này. Tập dữ liệu này gọi là tập kiểm tra (validation set). Thông thường, tập dữ
liệu sẵn có sẽ được chia thành hai tập: tập rèn luyện thường chiếm 2/3 số ví dụ và tập kiểm
tra chiếm 1/3.
II.6 Chuyển cây về các luật
Thông thường, cây quyết định sẽ được chuyển về dạng các luật để thuận tiện cho việc cài đặt
và sử dụng. Ví dụ cây quyết định cho tập dữ liệu rèn luyện trong bảng 9.1 có thể được
chuyển thành một số luật như sau :
If (Quang-cảnh =nắng) ∧ (Độ ẩm = Cao) Then Chơi-Tennis = No
If (Quang-cảnh =nắng) ∧ (Độ ẩm = TB) Then Chơi-Tennis = Yes
If (Quang-cảnh =Âm u) Then Chơi-Tennis = Yes
…
Võ Huỳnh Trâm – Trần Ngân Bình 163
Giáo Trình Trí Tuệ Nhân Tạo
II.7 Khi nào nên sử dụng ID3
Giải thuật ID3 là một giải thuật học đơn giản nhưng nó chỉ phù hợp với một lớp các bài toán
hay vấn đề có thể biểu diễn bằng ký hiệu. Chính vì vậy, giải thuật này thuộc tiếp cận giải
quyết vấn đề dựa trên ký hiệu (symbol – based approach).
Tập dữ liệu rèn luyện ở đây bao gồm các ví dụ được mô tả bằng các cặp “Thuộc tính – giá
trị”, như trong ví dụ ‘Chơi tennis’ trình bày trong suốt chương này, đó là ‘Gió – mạnh’, hay
‘Gió – nhẹ’,… và mỗi ví dụ đều có một thuộc tính phân loại, ví dụ như ‘chơi_tennis’, thuộc
tính này phải có giá trị rời rạc, như có, không.
Tuy nhiên, khác với một số giải thuật khác cũng thuộc tiếp cận này, ID3 sử dụng các ví dụ
rèn luyện ở dạng xác suất nên nó có ưu điểm là ít bị ảnh hưởng bởi một vài dữ liệu nhiễu. Vì
vậy, tập dữ liệu rèn luyện ở đây có thể chứa lỗi hoặc có thể thiếu một vài giá trị ở một số
thuộc tính nào đó. Một giải pháp thường được áp dụng đối với các dữ liệu bị thiếu là sử dụng
luật đa số, chương trình tiền xử lý dữ liệu sẽ điền vào các vị trí còn trống giá trị có tần số
xuất hiện cao nhất của thuộc tính đó.
Bên cạnh các vấn đề cơ bản được trình bày trong phần này, ID3 còn được thảo luận nhiều
vấn đề liên quan như làm sao để tránh cho cây quyết định không bị ảnh hưởng quá nhiều
(overfitting) vào dữ liệu rèn luyện, để nó có thể tổng quát hơn, phân loại đúng được cho các
trường hợp chưa gặp. Có nhiều giải pháp đã được đưa ra như cắt tỉa lại cây quyết định sau
khi học, hoặc cắt tỉa các luật sau khi chuyển cây về dạng luật. Một vấn đề khác nữa đó là
nếu như một vài thuộc tính nào đó có giá trị liên tục thì sao. Giải quyết các vấn đề này dẫn
đến việc sinh ra nhiều thế hệ sau của ID3, một giải thuật nổi bật trong số đó là C4.5 (Quinlan
1996). Ngoài ra, một số kỹ thuật được tạo ra để thao tác trên dữ liệu nhằm tạo ra các cây
quyết định khác nhau trên cùng tập dữ liệu rèn luyện đã cho như kỹ thuật bagging and
boosting.
III TIẾP CẬN KẾT NỐI: MẠNG NEURON
III.1 Giới thiệu
Các mô hình học theo tiếp cận này bắt chước theo cách học của các hệ thần kinh sinh vật.
Các hệ thống theo mô hình này có khi còn được gọi là các hệ kết nối (connectionist
systems), tính toán neural (Neural computing), mạng neural (Neural Networks), các hệ xử lý
phân tán song song (parallel distributed processing – PDP).
Không giống như các giải thuật của tiếp cận ký hiệu, các mô hình này không sử dụng ký
hiệu một cách tường minh để giải quyết vấn đề. Thay vào đó, chúng giữ cho trí tuệ phát triển
trong các hệ thống gồm các thành phần (neuron sinh học hay neuron nhân tạo) đơn giản,
tương tác thông qua một quá trình học hay thích nghi mà nhờ đó kết nối giữa các thành phần
này được điều chỉnh. Việc xử lý của các hệ thống này được phân tán trên một tập hợp các
lớp neuron. Các hệ thống này giải quyết vấn đề song song theo nghĩa rằng tất cả các neuron
trong tập hợp hay trong các lớp sẽ xử lý tín hiệu vào một cách đồng thời và độc lập.
Trong khi các giải thuật của tiếp cận ký hiệu sử dụng ký hiệu để mô tả các mẫu của bài toán
như ta đã thấy trong giải thuật ID3 thì những nhà thiết kế mạng neuron phải tạo ra một sơ đồ
164 Võ Huỳnh Trâm – Trần Ngân Bình
Chương 9: Học máy
mã hóa các mẫu (pattern) của bài toán thành các đại lượng số để đưa vào mạng. Việc chọn
lựa một sơ đồ mã hóa thích hợp đóng vai trò quyết định cho sự thành công hay thất bại trong
việc học của mạng.
Các mẫu (pattern) của bài toán được mã hóa thành các vector số. Các kết nối giữa các thành
phần, hay neuron, cũng được biểu diễn bằng các giá trị số. Cuối cùng, sự biến đổi của các
mẫu cũng là kết quả của các phép toán số học, thông thường là phép nhân ma trận. Sự chọn
lựa kiến trúc kết nối của nhà thiết kế mạng neuron góp phần vào tính thiên lệch quy nạp
(inductive bias) của hệ thống.
Các giải thuật và kiến trúc dùng để cài đặt mạng neuron thường được huấn luyện (trained)
hay tạo điều kiện (conditioned) chứ không được lập trình một cách tường tận. Và đây chính
là sức mạnh chủ yếu của tiếp cận này.
Các phương pháp của tiếp cận này phát huy sức mạnh của chúng trong các bài toán mà khó
có thể giải quyết bằng các mô hình ký hiệu. Tiêu biểu là các bài toán đòi hỏi các kỹ năng dựa
vào nhận thức, hay các bài toán thiếu một cú pháp định nghĩa rõ ràng.
Các bài toán thích hợp với tiếp cận kết nối thường là:
- Bài toán phân loại (classification): quyết định một giá trị đưa vào thuộc loại hay
nhóm nào,
- Bài toán nhận dạng mẫu (pattern recognition): nhận dạng cấu trúc trong các dữ liệu
có thể là bị nhiễu.
- Bài toán dự đoán (prediction): chẳng hạn như nhận dạng bệnh từ các triệu chứng,
nhận dạng tác nhân từ các hiệu ứng,…
- Bài toán tối ưu (optimization): tìm một tổ chức ràng buộc tốt nhất
- Bài toán lọc nhiễu (Noise filtering): hay phân biệt các tín hiệu với nền, tìm ra các
thành phần không quan trọng trong một tín hiệu.
III.2 Cơ bản về mạng kết nối:
Thành phần cơ bản của một mạng neuron là một neuron nhân tạo, như mô tả trong hình 9.6
sau đây.
III.2.1 Một neuron nhân tạo
Hình 9. 6 minh họa một neuron nhân tạo bao gồm:
Hình 9.6 - Một neuron nhân tạo.
¾ Các tín hiệu đầu vào, x
i
. Các dữ liệu này có thể đến từ môi trường, hay được kích hoạt
từ các neuron khác. Các mô hình khác nhau có thể có miền giá trị của đầu vào khác
nhau; thông thường các giá trị đầu vào này là các số rời rạc (discrete) lấy từ tập {0,1}
hay {-1,1} hay số thực.
Võ Huỳnh Trâm – Trần Ngân Bình 165
Giáo Trình Trí Tuệ Nhân Tạo
¾ Một tập các trọng số (weight) có giá trị thực, w
i
. Các trọng số này dùng để mô tả sức
mạnh kết nối, hay sức mạnh của các kết nối thiên lệch (bias link)
¾ Một mức kích hoạt (activation level) hay hàm kích hoạt Σw
i
x
i
. Mức kích hoạt của một
neuron được xác định bởi sức mạnh tích lũy từ các tín hiệu đầu vào của nó nơi mà mỗi
tín hiệu đầu vào được tỷ lệ lại bằng trọng số kết nối wi ở đầu vào đó. Vì vậy, mức kích
họat được tính toán bằng cách lấy tổng các giá trị đầu vào sau khi được tỉ lệ hóa, Σw
i
x
i
.
¾ Một hàm ngưỡng (threshold function), f. Hàm này tính kết quả đầu ra của neuron bằng
cách xác định xem mức kích hoạt nằm dưới hay trên một giá trị ngưỡng là ít hay nhiều.
Hàm ngưỡng này có khuynh hướng tạo ra trạng thái tắt/mở của các neuron.
III.2.2 Các đặc trưng của một mạng Neuron
Ngoài các tính chất của một neuron đơn lẻ, một mạng neuron còn được đặc trưng bởi các
tính chất toàn cục như sau:
¾ Hình thái mạng (network topology): là mô hình hay mẫu kết nối giữa các neuron đơn lẻ.
Hình 9.7 - Các hình thái mạng neuron khác nhau.
H
1
H
2
O
1
w
i
w
11
w
12
I
1
I
2
I
3
¾ Giải thuật học (learning algorithm): là giải thuật dùng để điều chỉnh các trọng số ở các
đầu vào của các neuron. Trong các phần tiếp theo của chương này sẽ trình bày một số
giải thuật học tiêu biểu.
¾ Sơ đồ mã hóa (encoding schema): Bao gồm việc thông dịch dữ liệu thực tế thành các giá
trị đầu vào của mạng, và việc thông dịch giá trị đầu ra của mạng thành một kết quả có ý
nghĩa.
III.2.3 Mạng neuron McCulloch-Pitts
Ví dụ đầu tiên về tính toán neural được MacCulloch và Pitts đưa ra vào 1943. Đầu vào của
một neuron McCulloch-Pitts là +1 (kích thích) hoặc –1 (ức chế). Hàm kích hoạt nhân mỗi
đầu vào với giá trị trọng số tương ứng và cộng chúng lại; nếu tổng lớn hơn hay bằng không,
thì neuron trả về 1, ngược lại, là –1.
McCulloch-Pitts cho thấy các neuron này có thể được xây dựng để tính toán bất cứ hàm
logic nào, chứng minh rằng các hệ thống gồm các neuron này cung cấp một mô hình tính
toán đầy đủ.
Hình 9.8 minh họa các neuron McCulloch-Pitts dùng để tính hàm logic and và or.
I
1
I
2
H
1
O
1
w
11
w
12
166 Võ Huỳnh Trâm – Trần Ngân Bình
Không có nhận xét nào:
Đăng nhận xét