Bài giảng 21: Ứng dụng của Không Gian Tích Trong (tiếp theo)

Lesson Attachments

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Phân Tích Xu Hướng Dữ Liệu

Giả sử f là một hàm chưa biết, nhưng ta biết (có thể chỉ xấp xỉ) các giá trị của nó tại các điểm t_0,\dots,t_n. Nếu tồn tại một “xu hướng tuyến tính” trong dữ liệu f(t_0),\dots,f(t_n), thì ta có thể kỳ vọng rằng các giá trị của f có thể được xấp xỉ bằng một hàm dạng \beta_0+\beta_1 t. Nếu dữ liệu có một “xu hướng bậc hai”, thì ta sẽ thử một hàm dạng \beta_0+\beta_1 t+\beta_2 t^2.

Trong một số bài toán thống kê, việc tách riêng xu hướng tuyến tính khỏi xu hướng bậc hai (và có thể cả bậc ba hoặc cao hơn) là điều quan trọng. Ví dụ, giả sử các kỹ sư đang phân tích hiệu suất của một chiếc xe mới, và f(t) là khoảng cách giữa xe và một điểm mốc tại thời điểm t. Nếu xe đang di chuyển với vận tốc không đổi, đồ thị của f(t) sẽ là một đường thẳng, với độ dốc biểu thị vận tốc của xe. Nếu đạp ga đột ngột, đồ thị của f(t) sẽ thay đổi để bao gồm thêm thành phần bậc hai và có thể cả thành phần bậc ba (do gia tốc gây ra). Để phân tích khả năng vượt xe khác, chẳng hạn, các kỹ sư có thể muốn tách riêng các thành phần bậc hai và bậc ba ra khỏi thành phần tuyến tính.

Nếu hàm số được xấp xỉ bằng một đường cong có dạng y=\beta_0+\beta_1 t+\beta_2 t^2, thì hệ số \beta_2 có thể không cung cấp thông tin mong muốn về xu hướng bậc hai trong dữ liệu, vì nó có thể không “độc lập” về mặt thống kê với các hệ số \beta_i khác. Để thực hiện điều được gọi là phân tích xu hướng trong dữ liệu, ta giới thiệu một tích vô hướng trong không gian \mathbb{P}_n. Với p,q thuộc \mathbb{P}_n, ta định nghĩa:

\langle p,q\rangle=p(t_0)q(t_0)+\cdots+p(t_n)q(t_n)

Trong thực tế, các nhà thống kê hiếm khi cần xem xét xu hướng trong dữ liệu có bậc cao hơn bậc ba hoặc bậc bốn. Vì vậy, hãy để p_0,p_1,p_2,p_3 là một cơ sở trực giao của không gian con \mathbb{P}_3 trong \mathbb{P}_n, được tạo ra bằng quy trình Gram – Schmidt áp dụng cho các đa thức 1,t,t^2,t^3. Tồn tại một đa thức g\in\mathbb{P}_n sao cho giá trị của nó tại các điểm t_0,\dots,t_n trùng với giá trị của hàm chưa biết f. Gọi \hat{g} là hình chiếu trực giao của gg lên \mathbb{P}_3 (theo tích vô hướng đã định nghĩa ở trên), tức là:

\hat{g}=c_0p_0+c_1p_1+c_2p_2+c_3p_3

Khi đó, \hat{g} được gọi là hàm xu hướng bậc ba, và c_0,\dots,c_3 là các hệ số xu hướng của dữ liệu. Hệ số c_1 biểu thị xu hướng tuyến tính, c_2 biểu thị xu hướng bậc hai, và c_3 biểu thị xu hướng bậc ba. Trong một số trường hợp dữ liệu thỏa điều kiện nhất định, các hệ số này là độc lập về mặt thống kê.

p_0,\dots,p_3 là trực giao, ta có thể tính từng hệ số xu hướng một cách riêng rẽ, không phụ thuộc vào các hệ số còn lại. (Nhớ rằng: c_i={\langle g,p_i\rangle}/{\langle p_i,p_i\rangle}.) Ta có thể bỏ qua p_3c_3 nếu chỉ quan tâm đến xu hướng bậc hai. Và nếu, chẳng hạn, ta muốn xác định xu hướng bậc bốn, ta chỉ cần tìm một đa thức p_4\in\mathbb{P}_4 trực giao với \mathbb{P}_3 (sử dụng Gram-Schmidt), rồi tính {\langle g,p_4\rangle}/{\langle p_4,p_4\rangle}.

Ví dụ 2: Ứng dụng đơn giản và phổ biến nhất của phân tích xu hướng xảy ra khi các điểm t_0,\dots,t_n có thể được điều chỉnh sao cho cách đều nhau và tổng bằng 0. Hãy tìm một hàm xu hướng bậc hai phù hợp với các dữ liệu (-2,3),(-1,5),(0,5),(1,4),(2,3).

Giải: Các tọa độ t đã được chia tỷ lệ phù hợp để sử dụng các đa thức trực giao

\begin{bmatrix}1\\1\\1\\1\\1\end{bmatrix},\quad\begin{bmatrix}-2\\-1\\0\\1\\2\end{bmatrix},\quad\begin{bmatrix}2\\-1\\-2\\-1\\2\end{bmatrix},\quad\begin{bmatrix}3\\5\\5\\4\\3\end{bmatrix}

Các phép tính chỉ sử dụng các vectơ này, không cần đến công thức cụ thể của các đa thức trực giao. Xấp xỉ tốt nhất cho dữ liệu bằng các đa thức trong \mathbb{P}_2 là hình chiếu trực giao được cho bởi:

\begin{matrix}\hat{p}=&\frac{\langle g,p_0\rangle}{\langle p_0,p_0\rangle}p_0+\frac{\langle g,p_1\rangle}{\langle p_1,p_1\rangle}p_1+\frac{\langle g,p_2\rangle}{\langle p_2,p_2\rangle}p_2\\\quad=&\frac{20}{5}p_0-\frac{1}{10}p_1-\frac{7}{14}p_2\\\end{matrix}

(3)   \begin{equation*}\hat{p}(t)=4-.1t-.5(t^2-2)\end{equation*}

Vì hệ số của p_2 không quá nhỏ, nên có thể kết luận hợp lý rằng dữ liệu có xu hướng ít nhất là bậc hai. Điều này được xác nhận bởi đồ thị trong hình 2.

HÌNH 2: Xấp xỉ bằng một hàm xu hướng bậc hai.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Hotline: 039.2266.928
Khóa học Toefl
Phone now