Bài giảng 14: Khớp Đường Cong Bình Phương Tối Thiểu

Lesson Attachments

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Khi các điểm dữ liệu (x_1,y_1),\dots,(x_n,y_n) trên biểu đồ phân tán không nằm gần một đường thẳng nào, có thể cần đưa ra một mối quan hệ hàm số khác giữa xy.

Hai ví dụ tiếp theo sẽ minh họa cách khớp dữ liệu bằng các đường cong có dạng tổng quát:

(2)   \begin{equation*}y=\beta_0 f_0(x)+\beta_1 f_1(x)+\dots+\beta_k f_k(x)\end{equation*}

trong đó f_0,\dots,f_k là các hàm đã biết, còn \beta_0,\dots,\beta_k là các tham số cần xác định. Như chúng ta sẽ thấy, phương trình (2) mô tả một mô hình tuyến tính, vì nó tuyến tính theo các tham số chưa biết.

Đối với một giá trị cụ thể của x, phương trình (2) cho giá trị dự đoán (hoặc “khớp”) của y. Sự khác biệt giữa giá trị quan sát được và giá trị dự đoán được gọi là phần dư. Các tham số \beta_0,\dots,\beta_k cần được xác định sao cho tổng bình phương của các phần dư là nhỏ nhất.

Ví dụ 3: Giả sử các điểm dữ liệu (x_1,y_1),\dots,(x_n,y_n) có vẻ nằm dọc theo một đường parabol thay vì một đường thẳng.

Ví dụ: Nếu tọa độ x biểu thị mức sản xuất của một công ty và y biểu thị chi phí trung bình trên một đơn vị khi sản xuất x đơn vị mỗi ngày, thì đường cong chi phí trung bình điển hình trông giống một parabol mở lên (Hình 4).

Hình 4: Đường cong chi phí trung bình

Trong sinh thái học, một đường parabol mở xuống được sử dụng để mô hình hóa tổng sản xuất sơ cấp của chất dinh dưỡng trong thực vật, dưới dạng hàm số của diện tích bề mặt lá (Hình 5).

Hình 5: Sản xuất chất dinh dưỡng

Giả sử ta muốn xấp xỉ dữ liệu bằng phương trình dạng:

(3)   \begin{equation*}y=\beta_0+\beta_1 x+\beta_2 x^2\end{equation*}

Hãy mô tả mô hình tuyến tính giúp tạo ra đường khớp bình phương tối thiểu cho dữ liệu theo phương trình (3).

Giải: Phương trình (3) mô tả mối quan hệ lý tưởng. Giả sử giá trị thực của các tham số là \beta_0,\beta_1,\beta_2. Khi đó, tọa độ của điểm dữ liệu đầu tiên (x_1,y_1) thỏa mãn phương trình:

y_1=\beta_0+\beta_1 x_1+\beta_2 x_1^2+\epsilon_1

trong đó \epsilon_1 là sai số phần dư giữa giá trị quan sát được y_1và giá trị dự đoán \beta_0+\beta_1 x_1+\beta_2 x_1^2. Tương tự, mỗi điểm dữ liệu xác định một phương trình tương ứng:

\begin{matrix}y_1=&\beta_0+\beta_1 x_1+\beta_2 x_1^2+\epsilon_1\\y_2=&\beta_0+\beta_1 x_2+\beta_2 x_2^2+\epsilon_2\\\vdots&\vdots\\y_n=&\beta_0+\beta_1 x_n+\beta_2 x_n^2+\epsilon_n\\\end{matrix}

Ta có thể viết hệ phương trình này dưới dạng \mathbf{y}=X\beta+\epsilon . Để xác định ma trận X, ta quan sát các hàng đầu tiên của hệ phương trình và tìm mẫu chung:

\begin{bmatrix}y_1\\y_2\\\vdots\\y_n\end{bmatrix}=\begin{bmatrix}1&x_1&x_1^2\\1&x_2&x_2^2\\\vdots&\vdots&\vdots\\1&x_n&x_n^2\end{bmatrix}\begin{bmatrix}\beta_0\\\beta_1\\\beta_2\end{bmatrix}+\begin{bmatrix}\epsilon_1\\\epsilon_2\\\vdots\\\epsilon_n\end{bmatrix}

Từ đó, mô hình tuyến tính có dạng:

\mathbf{y}=X\beta+\epsilon

Ví dụ 4: Nếu các điểm dữ liệu có xu hướng tuân theo một mô hình như trong hình 6, thì một mô hình phù hợp có thể là phương trình dạng:

y=\beta_0+\beta_1 x+\beta_2 x^2+\beta_3 x^3

Chẳng hạn, dữ liệu này có thể biểu diễn tổng chi phí của một công ty như một hàm của mức sản xuất. Hãy mô tả mô hình tuyến tính cung cấp đường cong bình phương tối thiểu phù hợp nhất với tập dữ liệu (x_1,y_1),\dots,(x_n,y_n).

Hình 6: Các điểm dữ liệu nằm trên một đường cong bậc ba

Giải: Bằng cách phân tích tương tự như ví dụ 2, ta có thể viết hệ phương trình dưới dạng:

\mathbf{y}=\begin{bmatrix}y_1\\y_2\\\vdots\\y_n\end{bmatrix},\quad X=\begin{bmatrix}1&x_1&x_1^2&x_1^3\\1&x_2&x_2^2&x_2^3\\\vdots&\vdots&\vdots&\vdots\\1&x_n&x_n^2&x_n^3\end{bmatrix},\quad\beta=\begin{bmatrix}\beta_0\\\beta_1\\\beta_2\\\beta_3\end{bmatrix},\epsilon=\begin{bmatrix}\epsilon_1\\\epsilon_2\\\vdots\\\epsilon_n\end{bmatrix}

Từ đó, mô hình tuyến tính có dạng:

\mathbf{y}=X\beta+\epsilon

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Hotline: 039.2266.928
Khóa học Toefl
Phone now