Bài giảng 13: Học Máy và Mô Hình Tuyến Tính

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Học Máy

Học máy áp dụng các mô hình tuyến tính để dự đoán kết quả (biến phụ thuộc) dựa trên giá trị của các đầu vào (biến độc lập). Máy tính được cung cấp một tập dữ liệu huấn luyện, trong đó cả biến độc lập và biến phụ thuộc đều đã biết trước. Từ đó, máy tính học cách xác định mối quan hệ giữa chúng.

Một dạng học phổ biến là khớp một đường cong với dữ liệu, chẳng hạn như đường hồi quy bình phương tối thiểu hoặc một đường cong bậc cao hơn. Khi đã học được quy luật từ dữ liệu huấn luyện, máy có thể dự đoán giá trị đầu ra dựa trên giá trị đầu vào mới.

Đường thẳng bình phương tối thiểu

Một nhiệm vụ quan trọng trong khoa học và kỹ thuật là phân tích và tìm hiểu mối quan hệ giữa các đại lượng biến đổi. Phần này giới thiệu một số tình huống trong đó dữ liệu được sử dụng để xây dựng hoặc kiểm chứng một công thức dự đoán giá trị của một biến phụ thuộc vào các biến khác. Trong mỗi trường hợp, bài toán sẽ quy về việc giải một bài toán bình phương tối thiểu.

Để dễ dàng áp dụng vào các vấn đề thực tế trong nghiên cứu và công việc sau này, chúng ta sử dụng ký hiệu phổ biến trong phân tích thống kê dữ liệu khoa học và kỹ thuật. Thay vì viết $A\mathbf{x}=\mathbf{b}$ , ta sử dụng $X\ss=\mathbf{y}$ , trong đó:

$X$ gọi là ma trận thiết kế,
$\ss$ là vector tham số,
$\mathbf{y}$ là vector quan sát.

Mối quan hệ đơn giản nhất giữa hai biến $x$ và $y$ là phương trình tuyến tính $y=\ss _{0}+\ss _{1}x$ . Trong thực nghiệm, dữ liệu thường tạo ra các điểm $(x_1,y_1),...,(x_n,y_n)$ mà khi vẽ lên đồ thị có xu hướng nằm gần một đường thẳng. Mục tiêu là xác định các tham số $\ss _{0}$ và $\ss _{1}$ sao cho đường thẳng này khớp với dữ liệu tốt nhất.

Giả sử $\ss _{0}$ và $\ss _{1}$ đã cố định, xét đường thẳng $y=\ss _{0}+\ss _{1}x$ trong hình 1. Với mỗi điểm dữ liệu $(x_{j},y_{j})$ , ta có một điểm $(x_{j},\ss _{0}+\ss _{1}x_{j})$ trên đường thẳng với cùng hoành độ $x_{j}$ . Trong đó:

$y_{j}$ là giá trị quan sát của $y$ ,
$\ss _{0}+\ss _{1}x_j$ là giá trị dự đoán của $y$ dựa trên đường thẳng.

Hiệu giữa giá trị quan sát $y_j$ và giá trị dự đoán $\ss _{0}+\ss _{1}x_j$ được gọi là phần dư, thể hiện độ lệch giữa dữ liệu thực tế và mô hình tuyến tính.

HÌNH 1: Khớp một đường thẳng với dữ liệu thực nghiệm

Có nhiều cách để đo mức độ “khớp” của đường thẳng với dữ liệu. Cách phổ biến nhất (chủ yếu vì tính toán đơn giản) là tính tổng bình phương của các phần dư. Đường thẳng bình phương tối thiểu là đường $y=\ss _{0}+\ss _{1}x$ sao cho tổng bình phương của các phần dư là nhỏ nhất. Đường thẳng này còn được gọi là đường hồi quy của $\mathbf{y}$ theo $\mathbf{x}$ , vì ta giả định rằng sai số trong dữ liệu chỉ xuất hiện ở tọa độ $\mathbf{y}$ . Các hệ số $\ss _{0}$ và $\ss _{1}$ của đường thẳng này được gọi là hệ số hồi quy tuyến tính.

Nếu tất cả các điểm dữ liệu nằm trên đường thẳng, thì các tham số $\ss _{0}$ và $\ss _{1}$ sẽ thỏa mãn hệ phương trình:

Giá trị $\mathbf{y}$ dự đoán		Giá trị $\mathbf{y}$ quan sát
$\ss _{0}+\ss _{1}x_{1}$	$=$	$y_{1}$
$\ss _{0}+\ss _{1}x_{2}$	$=$	$y_{2}$
$\vdots$	$=$	$\vdots$
$\ss _{0}+\ss _{1}x_{n}$	$=$	$y_{n}$

Hệ phương trình này có thể được viết dưới dạng ma trận như sau:

(1) $\begin{equation*}X\ss=\mathbf{y},\quad X=\begin{bmatrix}1&x_{1}\\1&x_{2}\\\vdots&\vdots\\1&x_{n}\\\end{bmatrix},\quad\ss=\begin{bmatrix}\ss _{0}\\\ss _{1}\end{bmatrix},\quad\mathbf{y}=\begin{bmatrix}y_{1}\\y_{2}\\\vdots\\y_{n}\end{bmatrix}\end{equation*}$

Tất nhiên, nếu các điểm dữ liệu không nằm trên một đường thẳng, thì không tồn tại các tham số $\ss _{0},\ss _{1}$ sao cho các giá trị $\mathbf{y}$ dự đoán trong $X\ss$ bằng với các giá trị y quan sát được, và phương trình $X\ss=\mathbf{y}$ sẽ không có nghiệm chính xác. Đây chính là một bài toán bình phương tối thiểu $A\mathbf{x}=\mathbf{b}$ nhưng được viết với ký hiệu khác!

Bình phương khoảng cách giữa các vectơ $X\ss$ và $\mathbf{y}$ chính là tổng bình phương của các phần dư. Giá trị β tối thiểu hóa tổng này cũng đồng thời tối thiểu hóa khoảng cách giữa $X\ss$ và $\mathbf{y}$ . Do đó, việc tìm nghiệm bình phương tối thiểu của $X\ss=\mathbf{y}$ chính là tìm giá trị $\ss$ xác định đường bình phương tối thiểu trong hình 1.

Ví dụ 1: Tìm phương trình $y=\ss _{0}+\ss _{1}x$ của đường bình phương tối thiểu khớp tốt nhất với các điểm dữ liệu $(2,1),(5,2),(7,3)$ và $(8,3)$ .

Giải: Sử dụng các tọa độ $x$ của dữ liệu để xây dựng ma trận thiết kế $X$ theo công thức (1) và tọa độ $y$ để tạo vectơ quan sát $\mathbf{y}$ .

$X=\begin{bmatrix}1&2\\1&5\\1&7\\1&8\\\end{bmatrix},\quad\mathbf{y}=\begin{bmatrix}1\\2\\3\\3\end{bmatrix}$

Để tìm nghiệm bình phương tối thiểu của phương trình $X\beta=\mathbf{y}$ , ta thiết lập phương trình chuẩn (với ký hiệu mới):

$X^T X\beta=X^T\mathbf{y}$

Tính:

$X^T X=\begin{bmatrix}1&1&1&1\\2&5&7&8\end{bmatrix}\begin{bmatrix}1&2\\1&5\\1&7\\1&8\end{bmatrix}=\begin{bmatrix}4&22\\22&142\end{bmatrix}$

$X^T\mathbf{y}=\begin{bmatrix}1&1&1&1\\2&5&7&8\end{bmatrix}\begin{bmatrix}1\\2\\3\\3\end{bmatrix}=\begin{bmatrix}9\\57\end{bmatrix}$

Phương trình chuẩn trở thành

$\begin{bmatrix}4&22\\22&142\end{bmatrix}\begin{bmatrix}\beta_0\\\beta_1\end{bmatrix}=\begin{bmatrix}9\\57\end{bmatrix}$

Giải hệ phương trình:

$\begin{bmatrix}\beta_0\\\beta_1\end{bmatrix}=\begin{bmatrix}4&22\\22&122\end{bmatrix}^{-1}\begin{bmatrix}9\\57\end{bmatrix}=\frac{1}{84}\begin{bmatrix}142&-22\\-22&4\\\end{bmatrix}\begin{bmatrix}9\\57\end{bmatrix}=\frac{1}{84}\begin{bmatrix}24\\30\end{bmatrix}=\begin{bmatrix}2/7\\5/14\end{bmatrix}$

Do đó, đường thẳng bình phương tối thiểu có phương trình:

$y=\frac{2}{7}+\frac{5}{14}x$

Xem minh họa trong Hình 2.

HÌNH 2 Đường thẳng bình phương tối thiểu $y=\frac{2}{7}+\frac{5}{14}x$

Ví dụ 2: Nếu một máy học dữ liệu từ ví dụ 1 bằng cách tạo ra đường thẳng bình phương tối thiểu, nó sẽ dự đoán kết quả nào cho các đầu vào 4 và 6?

Giải: Máy sẽ thực hiện các phép tính tương tự như trong Ví dụ 1 để xác định đường thẳng bình phương tối thiểu:

$y=\frac{2}{7}+\frac{5}{14}x$

làm mô hình hợp lý để dự đoán kết quả.

Với $x=4$ , máy sẽ dự đoán đầu ra:

$y=\frac{2}{7}+\frac{5}{14}(4)=\frac{12}{7}$ .

Với $x=6$ , máy sẽ dự đoán đầu ra:

$y=\frac{2}{7}+\frac{5}{14}(6)=\frac{17}{7}$

Xem Hình 3.

Một phương pháp phổ biến trước khi tính đường hồi quy bình phương tối thiểu là tính giá trị trung bình $\bar{x}$ của các giá trị $x$ ban đầu, sau đó tạo một biến mới $x^\ast=x-\bar{x}$ . Dữ liệu $x$ này được gọi là dạng độ lệch trung bình. Trong trường hợp này, hai cột của ma trận thiết kế sẽ trực giao, giúp đơn giản hóa việc giải hệ phương trình chuẩn.

Mô Hình Tuyến Tính Tổng Quát

Trong một số ứng dụng, cần phải khớp dữ liệu bằng một đường cong thay vì một đường thẳng. Trong các ví dụ sau, phương trình ma trận vẫn có dạng $X\beta=\mathbf{y}$ , nhưng dạng cụ thể của $X$ sẽ thay đổi tùy theo từng bài toán. Các nhà thống kê thường giới thiệu một vectơ dư $\epsilon$ , được định nghĩa là $\epsilon=\mathbf{y}-X\beta$ , và viết lại phương trình thành:

$\mathbf{y}=X\beta+\epsilon$

Bất kỳ phương trình nào có dạng này đều được gọi là một mô hình tuyến tính. Khi đã xác định được $X$ và $\mathbf{y}$ , mục tiêu là tối thiểu hóa độ dài của $\epsilon$ , tức là tìm nghiệm bình phương tối thiểu của phương trình $X\beta=\mathbf{y}$ . Trong mỗi trường hợp, nghiệm bình phương tối thiểu $\hat{\beta}$ sẽ là nghiệm của hệ phương trình chuẩn:

$X^T X\beta=X^T\mathbf{y}$

Mô Hình Tuyến Tính Tổng Quát

Để lại một bình luận Hủy

Chịu trách nhiệm nội dung

Bản quyền

Ý kiến bạn đọc

Bài giảng 13: Học Máy và Mô Hình Tuyến Tính

Lesson Attachments

Mô Hình Tuyến Tính Tổng Quát

Để lại một bình luận Hủy