Bài giảng 13: Học Máy và Mô Hình Tuyến Tính
(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)
Học Máy
Học máy áp dụng các mô hình tuyến tính để dự đoán kết quả (biến phụ thuộc) dựa trên giá trị của các đầu vào (biến độc lập). Máy tính được cung cấp một tập dữ liệu huấn luyện, trong đó cả biến độc lập và biến phụ thuộc đều đã biết trước. Từ đó, máy tính học cách xác định mối quan hệ giữa chúng.
Một dạng học phổ biến là khớp một đường cong với dữ liệu, chẳng hạn như đường hồi quy bình phương tối thiểu hoặc một đường cong bậc cao hơn. Khi đã học được quy luật từ dữ liệu huấn luyện, máy có thể dự đoán giá trị đầu ra dựa trên giá trị đầu vào mới.
Đường thẳng bình phương tối thiểu
Một nhiệm vụ quan trọng trong khoa học và kỹ thuật là phân tích và tìm hiểu mối quan hệ giữa các đại lượng biến đổi. Phần này giới thiệu một số tình huống trong đó dữ liệu được sử dụng để xây dựng hoặc kiểm chứng một công thức dự đoán giá trị của một biến phụ thuộc vào các biến khác. Trong mỗi trường hợp, bài toán sẽ quy về việc giải một bài toán bình phương tối thiểu.
Để dễ dàng áp dụng vào các vấn đề thực tế trong nghiên cứu và công việc sau này, chúng ta sử dụng ký hiệu phổ biến trong phân tích thống kê dữ liệu khoa học và kỹ thuật. Thay vì viết
, ta sử dụng
, trong đó:
gọi là ma trận thiết kế,
là vector tham số,
là vector quan sát.
Mối quan hệ đơn giản nhất giữa hai biến
và
là phương trình tuyến tính
. Trong thực nghiệm, dữ liệu thường tạo ra các điểm
mà khi vẽ lên đồ thị có xu hướng nằm gần một đường thẳng. Mục tiêu là xác định các tham số
và
sao cho đường thẳng này khớp với dữ liệu tốt nhất.
Giả sử
và
đã cố định, xét đường thẳng
trong hình 1. Với mỗi điểm dữ liệu
, ta có một điểm
trên đường thẳng với cùng hoành độ
. Trong đó:
là giá trị quan sát của
,
là giá trị dự đoán của
dựa trên đường thẳng.
Hiệu giữa giá trị quan sát
và giá trị dự đoán
được gọi là phần dư, thể hiện độ lệch giữa dữ liệu thực tế và mô hình tuyến tính.

Có nhiều cách để đo mức độ “khớp” của đường thẳng với dữ liệu. Cách phổ biến nhất (chủ yếu vì tính toán đơn giản) là tính tổng bình phương của các phần dư. Đường thẳng bình phương tối thiểu là đường
sao cho tổng bình phương của các phần dư là nhỏ nhất. Đường thẳng này còn được gọi là đường hồi quy của
theo
, vì ta giả định rằng sai số trong dữ liệu chỉ xuất hiện ở tọa độ
. Các hệ số
và
của đường thẳng này được gọi là hệ số hồi quy tuyến tính.
Nếu tất cả các điểm dữ liệu nằm trên đường thẳng, thì các tham số
và
sẽ thỏa mãn hệ phương trình:
| Giá trị | Giá trị | |
Hệ phương trình này có thể được viết dưới dạng ma trận như sau:
(1) 
Tất nhiên, nếu các điểm dữ liệu không nằm trên một đường thẳng, thì không tồn tại các tham số
sao cho các giá trị
dự đoán trong
bằng với các giá trị y quan sát được, và phương trình
sẽ không có nghiệm chính xác. Đây chính là một bài toán bình phương tối thiểu
nhưng được viết với ký hiệu khác!
Bình phương khoảng cách giữa các vectơ
và
chính là tổng bình phương của các phần dư. Giá trị β tối thiểu hóa tổng này cũng đồng thời tối thiểu hóa khoảng cách giữa
và
. Do đó, việc tìm nghiệm bình phương tối thiểu của
chính là tìm giá trị
xác định đường bình phương tối thiểu trong hình 1.
Ví dụ 1: Tìm phương trình
của đường bình phương tối thiểu khớp tốt nhất với các điểm dữ liệu
và
.
Giải: Sử dụng các tọa độ
của dữ liệu để xây dựng ma trận thiết kế
theo công thức (1) và tọa độ
để tạo vectơ quan sát
.

Để tìm nghiệm bình phương tối thiểu của phương trình
, ta thiết lập phương trình chuẩn (với ký hiệu mới):
![]()
Tính:


Phương trình chuẩn trở thành
![]()
Giải hệ phương trình:
![]()
Do đó, đường thẳng bình phương tối thiểu có phương trình:
![]()
Xem minh họa trong Hình 2.


Ví dụ 2: Nếu một máy học dữ liệu từ ví dụ 1 bằng cách tạo ra đường thẳng bình phương tối thiểu, nó sẽ dự đoán kết quả nào cho các đầu vào 4 và 6?
Giải: Máy sẽ thực hiện các phép tính tương tự như trong Ví dụ 1 để xác định đường thẳng bình phương tối thiểu:
![]()
làm mô hình hợp lý để dự đoán kết quả.
- Với
, máy sẽ dự đoán đầu ra:
.
- Với
, máy sẽ dự đoán đầu ra:
![]()
Xem Hình 3.

Một phương pháp phổ biến trước khi tính đường hồi quy bình phương tối thiểu là tính giá trị trung bình
của các giá trị
ban đầu, sau đó tạo một biến mới
. Dữ liệu
này được gọi là dạng độ lệch trung bình. Trong trường hợp này, hai cột của ma trận thiết kế sẽ trực giao, giúp đơn giản hóa việc giải hệ phương trình chuẩn.
Mô Hình Tuyến Tính Tổng Quát
Trong một số ứng dụng, cần phải khớp dữ liệu bằng một đường cong thay vì một đường thẳng. Trong các ví dụ sau, phương trình ma trận vẫn có dạng
, nhưng dạng cụ thể của
sẽ thay đổi tùy theo từng bài toán. Các nhà thống kê thường giới thiệu một vectơ dư
, được định nghĩa là
, và viết lại phương trình thành:
![]()
Bất kỳ phương trình nào có dạng này đều được gọi là một mô hình tuyến tính. Khi đã xác định được
và
, mục tiêu là tối thiểu hóa độ dài của
, tức là tìm nghiệm bình phương tối thiểu của phương trình
. Trong mỗi trường hợp, nghiệm bình phương tối thiểu
sẽ là nghiệm của hệ phương trình chuẩn:
![]()
- 1 - Bài giảng 1: Tích Trong
- 2 - Bài giảng 2: Độ Dài của Một Vector
- 3 - Bài giảng 3: Các Véc-tơ Trực Giao
- 4 - Bài giảng 4: Tập hợp trực giao
- 5 - Bài giảng 5: Phép chiếu trực giao
- 6 - Bài giảng 6: Tập Hợp Trực Chuẩn
- 7 - Bài giảng 7: Phép chiếu trực giao
- 8 - Bài giảng 8: Tính chất của Phép Chiếu Trực Giao
- 9 - Bài giảng 9: Quy trình Gram–Schmidt
- 10 - Bài giảng 10: Cơ Sở Trực Chuẩn, Phân Tích QR Của Ma Trận
- 11 - Bài giảng 11: Bài toán Bình phương nhỏ nhất
- 12 - Bài giảng 12: Các phương pháp tính cho nghiệm bình phương tối thiểu
- 13 - Bài giảng 13: Học Máy và Mô Hình Tuyến Tính
- 14 - Bài giảng 14: Khớp Đường Cong Bình Phương Tối Thiểu
- 15 - Bài giảng 15: Hồi quy bội
- 16 - Bài giảng 16: Không gian tích trong
- 17 - Bài giảng 17: Quá trình Gram–Schmidt
- 18 - Bài giảng 18: Hai Bất Đẳng Thức
- 19 - Bài giảng 19: Một Tích Vô Hướng cho Không Gian C[a,b]
- 20 - Bài giảng 20: Ứng dụng của Không Gian Tích Trong
- 21 - Bài giảng 21: Ứng dụng của Không Gian Tích Trong (tiếp theo)
- 22 - Bài giảng 22: Chuỗi Fourier
