Thứ Hai, 20 tháng 1, 2014

TÌM HIỂU KHAI PHÁ TRI THỨC và xây DỰNG hệ CHUYÊN GIA CHẨN đoán và điều TRỊ BỆNH BẰNG THUỐC ĐÔNG y

Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
Hình 1. Quy trình khai phá tri thức
Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ
quyết định cho việc rút ra được các tri thức hữu ích và cho phép chọn các phương
pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu.
Bước thứ hai là thu thập và xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm
loại bỏ nhiễu, xử lý việc thiếu dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết,
bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình khai phá tri thức.
Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và
các mô hình ẩn dưới các dữ liệu.
Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự
đoán. Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy
trung bình trên tất cả các lần thực hiện.
Nhóm 1 Trang 5/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
Hình 2: Tiến trình KDD (Knowledge discovery in databases) tiêu biểu
.1.1.3. Các phương pháp khai phá dữ liệu
Với hai đích chính của khai phá dữ liệu là dự đoán (Prediction) và Mô tả
(Description), người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu:
- Phân loại (Classification)
- Hồi qui (Regression)
- Phân nhóm (Clustering)
- Tổng hợp (Summarization)
- Mô hình ràng buộc (Dependency modeling)
- Dò tìm biến đổi và độ lệch (Change and Deviation Dectection)
- Biểu diễn mô hình (Model Representation)
- Kiểm định mô hình (Model Evaluation)
- Phương pháp tìm kiếm (Search Method)
Một quá trình KPDL bao gồm năm giai đoạn chính sau
(1) Tìm hiểu nghiệp vụ và dữ liệu
(2) Chuẩn bị dữ liệu
(3) Mô hình hóa dữ liệu
(4) Hậu xử lý và đánh giá mô hình
(5) Triển khai tri thức
Nhóm 1 Trang 6/31
Data
Data
mining
mining
Data
Data
mining
mining
Input data
Input data
Input data
Input data
Results
Results
Results
Results
Postprocessin
Postprocessin
g
g
Operational
Operational
Database
Database
Operational
Operational
Database
Database
S
e
l
e
c
t
i
o
n
S
e
l
e
c
t
i
o
n
S
e
l
e
c
t
i
o
n
S
e
l
e
c
t
i
o
n
Utilization
Utilization
Utilization
Utilization
Eval. of
interes-
tingness
Raw
data
Time
based
selection
Selected
usable
pattern
s
1
3
2
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
Quá trình này có thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trên
phản hồi từ kết quả của các giai đoạn sau. Tham gia chính trong quá trình khai phá
dữ liệu là các nhà tư vấn và phát triển chuyên nghiệp trong lĩnh vực khai phá dữ
liệu.
Hình 3. Giao diện trực quan của môi trường KPDL Clementine
.1.1.4. Các lĩnh vực liên quan đến Khai phá tri thức
Khai phá tri thức và khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực:
thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán học, tính toán song song và tốc độ
cao, thu thập tri thức cho các hệ chuyên gia, quan sát dữ liệu Đặc biệt khai phá tri
thức và khai phá dữ liệu rất gần gũi với lĩnh vực thống kê, sử dụng các phương pháp
thống kê để mô hình dữ liệu và khai phá các mẫu, luật Ngân hàng dữ liệu (Data
Warehousing) và các công cụ phân tích trực tuyến (OLAP) cũng liên quan rất chặt chẽ
với khai phá tri thức và khai phá dữ liệu.
.1.1.5. Các ứng dụng của Khai phá tri thức
- Thông tin thương mại:
o Phân tích dữ liệu marketing, khách hàng
o Phân tích đầu tư
o Phê duyệt cho vay vốn
o Khai phá gian lận
Nhóm 1 Trang 7/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
o Thông tin kỹ thuật:
o Điều khiển và lập lịch trình
o Quản trị mạng
o Phân tích các kết quả thí nghiệm
- Thông tin khoa học
- Thông tin cá nhân
.1.1.6. Các thách thức với Khai phá tri thức và khai phá dữ liệu
- Các cơ sở dữ liệu lớn
- Số chiều lớn
- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã khai phá không còn
phù hợp.
- Dữ liệu bị thiếu hoặc nhiễu
- Quan hệ giữa các trường phức tạp
- Giao tiếp với người sử dụng và kết hợp với các tri thức đã có.
- Tích hợp với các hệ thống khác
.1.2.
.1.2.


Các ứng dụng cụ thể áp dụng kỹ thuật khai phá tri thức
Các ứng dụng cụ thể áp dụng kỹ thuật khai phá tri thức
.1.2.1. Ứng dụng trong bài toán dự báo từ thông tin kinh tế - xã hội
Trong ứng dụng, nhóm sẽ lấy một bài toán dự báo về dân số thế giới đến năm
2015 dựa trên những số liệu thống kê dân số thế giới từ năm 1950 - 2002 bằng phương
pháp hồi quy (Regression). Mặc dù số lượng các dữ liệu không lớn như trong các dữ
liệu kinh tế - xã hội khác, nhưng bài toán này cũng cho ta thấy các mô hình phân tích
khác nhau và các kết quả khác nhau khi khai phá những dữ liệu đó.
Để đơn giản, ta không đề cập đến bước thu thập và tiền xử lý dữ liệu, các dữ liệu
tại bảng dưới được coi là hoàn thiện trong bài toán này. Mặt khác, các dữ liệu thực tế
được tính vào giữa các năm do vậy các dữ liệu dân số ta tính toán cũng được hiểu
ngầm định là vào giữa năm.
Sau khi thực hiện khai phá dữ liệu dân số bằng phương pháp hồi qui đơn với bốn
mô hình khác nhau: Linear (hàm tuyến tính), Logarit (hàm lôgarit tự nhiên),
Polynomial (hàm đa thức - trong ví dụ này ta chọn đa thức bậc 2), Exponential (hàm
mũ), ta xác định được kết quả (Xem bảng 2, 3, hình 2, 3, 4, 5).
Nhóm 1 Trang 8/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
Hình 4. Đồ thị biểu diễn dân số thế giới thực tế và lý thuyết theo năm với mô
hình Linear
Hình 5. Đồ thị biểu diễn dân số thế giới thực tế và lý thuyết theo năm với mô
hình Logarit (Ln)
Nhóm 1 Trang 9/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
Hình 6. Đồ thị biểu diễn dân số thế giới thực tế và lý thuyết theo năm với mô
hình Polynomial
Hình 7. Đồ thị biểu diễn dân số thế giới thực tế và lý thuyết theo năm với mô
hình Exponential
Trong các kết quả đó, ta thấy mô hình đa thức bậc 2 - Polynomial có độ tương
quan cao hơn các mô hình khác, do vậy, trong trường hợp cụ thể này ta có thể sử dụng
Nhóm 1 Trang 10/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
các kết quả dự báo của mô hình này. Tác giả xin dừng tại đây và không đi sâu phân
tích việc áp dụng dữ liệu đã dự báo được vào các lĩnh vực khác nhau.
.1.2.2. Ứng dụng kỹ thuật mạng Noron trong khai phá dữ liệu tối ưu hiệu suất
lò hơi ở nhà máy
Mạng noron và khai phá dữ liệu là hai lĩnh vực đã được nghiên cứu nhiều ở
nước ta nhằm áp dụng vào các ngành công nghiệp nặng. Nước ngoài thì vấn đề này rất
được quan tâm. Mới đây, trong hội thảo khách hàng của hãng General Electric
vào tháng 08 năm 2008, Stephen Kwan đã giới thiệu phần mềm Kn3, phần mềm
chuyên dụng trong tối ưu nhà máy năng lượng và các ứng dụng khác nhằm làm
tăng hiệu suất, giảm khí thải ô nhiễm
môi trường.
Với bộ quản trị dữ liệu giúp khai phá dữ liệu, mạng noron mô hình hóa đối
tượng, bảng tập luật và các thuật toán di truyền xác định luật điều khiển, tạo tri
thức, bộ điều khiển đa biến thực hiện tối ưu…
Nhóm 1 Trang 11/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
Nhóm 1 Trang 12/31
Chưa tốt
Dữ liệu vận hành của lò hơi
GIAI ĐOẠN HỌC
Mô hình hoá lò hơi bằng hàm đa biến y=f(x1,x2,x3…) bằng mạng noron.
Xây dựng cơ sở tri thức chứa các mẫu dấu hiệu điều khiển bằng thuật toán khai
phá dữ liệu
GIAI ĐOẠN KIỂM THỬ
Các thông số tối ưu hệ thống được đưa vào hàm điều khiển để
thực nghiệm kiểm tra tính chính xác cũng như tính toán hiệu
quả.
Tốt
GIAI ĐOẠN HIỆN THỰC
Hệ thống sẽ đưa ra thông số hiệu chỉnh cho nhân viên vận hành đặt lại vào hệ thống
DCS, những thay đổi thông số này nằm trong khoảng rất nhỏ cho phép nhằm bảo đảm
không gây thay đổi đột ngột cũng như luôn luôn kiểm soát được công nghệ.
KIỂM TRA KẾT QUẢ
Các thay đổi sau một khoảng thời gian nhất định, được
kiểm tra bằng cách đánh giá lại hiệu suất và so sánh với
tình trạng trước đó
Tốt
Chưa tốt
HOÀN THÀNH
Hình 8. Lưu đồ giải thuật của quá trình tối ưu
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
Kết quả đạt được (tham khảo bài báo)
• Dự báo chính xác hiệu suất từ mạng Noron
• Kết quả tối ưu nâng được hiệu suất từ 1 đến 1.5 % trong điều kiện test
.1.3.
.1.3.


Kết luận
Kết luận
Qua các vấn đề được trình bày trong mục 1 và bài toán ứng dụng trong mục 2,
chúng ta nhận thấy với một lượng dữ liệu thực tế nhỏ và với mục đích bài toán cụ thể
nhưng ta có thể tiếp cận theo nhiều hướng khác nhau của cùng một phương pháp khai
phá dữ liệu và đạt được kết quả khác nhau, điều đó càng làm sáng tỏ khả năng ứng
dụng thực tế to lớn đồng thời với những thách thức đối với kỹ thuật khai phá tri thức
và khai phá dữ liệu trong các bài toán kinh tế - xã hội và trong nhiều lĩnh vực khác.
Nhóm 1 Trang 13/31
Tiểu luận: Công nghệ Tri thức Chẩn đoán và Điều trị bệnh bằng thuốc Đông y
BÀI TẬP HỆ CHUYÊN GIA
PHẦN .1 CƠ SỞ LÝ THUYẾT
.1.1.
.1.1.


Hệ chuyên gia
Hệ chuyên gia
.1.1.1. Khái niệm
Hệ chuyên gia, còn gọi là hệ thống dựa tri thức, là một chương trình máy tính
chứa một số tri thức đặc thù của một hoặc nhiều chuyên gia con người về một chủ đề
cụ thể nào đó. Các chương trình thuộc loại này đã được phát triển từ các thập kỷ 1960
và 1970, và trở thành ứng dụng thương mại từ thập kỷ 1980. Dạng phổ biến nhất của
hệ chuyên gia là một chương trình gồm một tập luật phân tích thông tin (thường được
cung cấp bởi người sử dụng hệ thống) về một lớp vấn đề cụ thể, cũng như đưa ra các
phân tích về các vấn đề đó, và tùy theo thiết kế chương trình mà đưa lời khuyên về
trình tự các hành động cần thực hiện để giải quyết vấn đề. Đây là một hệ thống sử
dụng các khả năng lập luận để đạt tới các kết luận.
Theo E. Feigenbaum : “Hệ chuyên gia (Expert System) là một chương trình máy
tính thông minh sử dụng tri thức (knowledge) và các thủ tục suy luận (inference
procedues) để giải những bài toán tương đối khó khăn đòi hỏi những chuyên gia mới
giải được”.
.1.1.2. Hoạt động của một hệ chuyên gia
Một hệ chuyên gia bao gồm ba thành phần chính là cơ sở tri thức (knowledge
base), máy suy diễn hay mô tơ suy diễn (inference engine), và hệ thống giao tiếp với
người sử dụng (user interface). Cơ sở tri thức chứa các tri thức để từ đó, máy suy diễn
tạo ra câu trả lời cho người sử dụng thông qua hệ thống giao tiếp.
Người sử dụng cung cấp sự kiện (fact) là những gì đã biết, đã có thật hay những
thông tin có ích cho hệ chuyên gia, và nhận được những câu trả lời là những lời
khuyên hay những gợi ý đúng đắn (expertise).
Hoạt động của hệ chuyên gia dựa trên tri thức được minh họa như sau:
Nhóm 1 Trang 14/31
Người sử dụng
(User)
Hệ thống
giao tiếp
(User
Interface)
Cơ sở tri thức
(Knowledge Base)
Máy suy diễn
(Interface Engine)

Không có nhận xét nào:

Đăng nhận xét