Học Máy ( Machine Learning ) là lĩnh vực con của Trí Tuệ Nhân Tạo ( Artificial Intelligence - AI). Mục tiêu của Học Máy là hiểu cấu trúc của dữ liệu ( data ) và xử lý dữ liệu để tạo ra các mô hình ( model ) thực hiện các công việc cụ thể. Nếu trong các phương pháp tiếp cận truyền thống, thuật toán là một tập hợp các tri thức và quy luật được lập trình rõ ràng thì ở đây các thuật toán machine learning sẽ tự học các tri thức và quy luật đó từ dữ liệu đầu vào.
Arthur Samuel định nghĩa Học Máy như sau:
[Machine Learning is the] field of study that gives computers the ability to learn without being explicitly programmed.
Arthur Samuel, 1959
Ứng dụng đầu tiên của Học máy là chương trình lọc thư rác (spam filter). Nó đã giúp cải thiện cuộc sống của hàng trăm triệu người và phổ biến trên toàn thế thời từ thập niên 1990. Nó là tiền đề phát triển cho hàng trăm ứng dụng Học máy khác như hệ thống khuyến nghị, nhận dạng giọng nói, nhận dạng khuôn mặt,...
Cách tiếp cận cũ cho các vấn đề yêu cầu nhiều sự can thiệp thủ công từ con người, yêu cầu phải có một hệ thống tập luật rất dài. Đối với Học máy, việc tiếp cận trở nên dễ dàng hơn cho việc lập trình và cho kết quả tốt hơn vì chương trình Học máy có thể tự động mô hình hoá, nhận biết được các luật mới dựa trên dữ liệu đầu vào.
Các vấn đề phức tạp mà chưa có lời giải tốt bằng cách tiếp cận truyền thống có thể tìm được lời giải tốt bằng kỹ thuật Học máy.
Chương trình học máy có thể điều chỉnh để thích ứng với dữ liệu mới và nhận thông tin chuyên sâu về các vấn đề phức tạp với lượng lớn dữ liệu.
Có bốn loại thuật toán Học máy chính: Học có giám sát (supervised learning), học không có giám sát (unsupervised learning), học bán giám sát (semisupervised learning), học tăng cường (Reinforcement learning).
Trong học có giám sát, thuật toán cần được học dựa trên dữ liệu đầu vào được gán nhãn. Có hai loại chính là:
![]() |
|---|
| Lọc thư rác |
![]() |
|---|
| Hồi quy |
Một số thuật toán học có giám sát tiêu biểu:
Khác với học có giám sát, thuật toán học không có giám sát nhận dữ liệu đầu vào không có nhãn. Một số loại chính là:
![]() |
|---|
| Phân cụm |
![]() |
|---|
| Phát hiện bất thường |
Một số thuật toán có thể hoạt động khi chúng ta có một lượng lớn dữ liệu nhưng chỉ một phần trong chúng được gán nhãn. Một ví dụ điển hình của thuật toán này là chỉ có một phần ảnh được gán nhãn và phần lớn còn lại chưa được gán nhãn được thu thập từ Internet.
Học tăng cường nghiên cứu các thuật toán để dạy agent tương tác với môi trường xung quanh (thực thi một tác vụ nào đó). Các agent có thể quan sát môi trường, lựa chọn hành động và nhận được phần thưởng (hoặc phạt) từ hành động đó. Được ứng dụng nhiều trong điều kiển robot và game. Ví dụ: DeepMind's AlphaGo nổi tiếng với việc chơi cờ vây thắng cả con người.
Đây là kỹ thuật kết hợp kết quả của nhiều mô hình để tạo ra một mô hình có hiệu suất cao.
Một số kỹ thuật Ensemble learning: