Bài giảng 21: Ứng dụng của Không Gian Tích Trong (tiếp theo)

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Phân Tích Xu Hướng Dữ Liệu

Giả sử $f$ là một hàm chưa biết, nhưng ta biết (có thể chỉ xấp xỉ) các giá trị của nó tại các điểm $t_0,\dots,t_n$ . Nếu tồn tại một “xu hướng tuyến tính” trong dữ liệu $f(t_0),\dots,f(t_n)$ , thì ta có thể kỳ vọng rằng các giá trị của $f$ có thể được xấp xỉ bằng một hàm dạng $\beta_0+\beta_1 t$ . Nếu dữ liệu có một “xu hướng bậc hai”, thì ta sẽ thử một hàm dạng $\beta_0+\beta_1 t+\beta_2 t^2$ .

Trong một số bài toán thống kê, việc tách riêng xu hướng tuyến tính khỏi xu hướng bậc hai (và có thể cả bậc ba hoặc cao hơn) là điều quan trọng. Ví dụ, giả sử các kỹ sư đang phân tích hiệu suất của một chiếc xe mới, và $f(t)$ là khoảng cách giữa xe và một điểm mốc tại thời điểm $t$ . Nếu xe đang di chuyển với vận tốc không đổi, đồ thị của $f(t)$ sẽ là một đường thẳng, với độ dốc biểu thị vận tốc của xe. Nếu đạp ga đột ngột, đồ thị của $f(t)$ sẽ thay đổi để bao gồm thêm thành phần bậc hai và có thể cả thành phần bậc ba (do gia tốc gây ra). Để phân tích khả năng vượt xe khác, chẳng hạn, các kỹ sư có thể muốn tách riêng các thành phần bậc hai và bậc ba ra khỏi thành phần tuyến tính.

Nếu hàm số được xấp xỉ bằng một đường cong có dạng $y=\beta_0+\beta_1 t+\beta_2 t^2$ , thì hệ số $\beta_2$ có thể không cung cấp thông tin mong muốn về xu hướng bậc hai trong dữ liệu, vì nó có thể không “độc lập” về mặt thống kê với các hệ số $\beta_i$ khác. Để thực hiện điều được gọi là phân tích xu hướng trong dữ liệu, ta giới thiệu một tích vô hướng trong không gian $\mathbb{P}_n$ . Với $p,q$ thuộc $\mathbb{P}_n$ , ta định nghĩa:

$\langle p,q\rangle=p(t_0)q(t_0)+\cdots+p(t_n)q(t_n)$

Trong thực tế, các nhà thống kê hiếm khi cần xem xét xu hướng trong dữ liệu có bậc cao hơn bậc ba hoặc bậc bốn. Vì vậy, hãy để $p_0,p_1,p_2,p_3$ là một cơ sở trực giao của không gian con $\mathbb{P}_3$ trong $\mathbb{P}_n$ , được tạo ra bằng quy trình Gram – Schmidt áp dụng cho các đa thức $1,t,t^2,t^3$ . Tồn tại một đa thức $g\in\mathbb{P}_n$ sao cho giá trị của nó tại các điểm $t_0,\dots,t_n$ trùng với giá trị của hàm chưa biết $f$ . Gọi $\hat{g}$ là hình chiếu trực giao của gg lên $\mathbb{P}_3$ (theo tích vô hướng đã định nghĩa ở trên), tức là:

$\hat{g}=c_0p_0+c_1p_1+c_2p_2+c_3p_3$

Khi đó, $\hat{g}$ được gọi là hàm xu hướng bậc ba, và $c_0,\dots,c_3$ là các hệ số xu hướng của dữ liệu. Hệ số $c_1$ biểu thị xu hướng tuyến tính, $c_2$ biểu thị xu hướng bậc hai, và $c_3$ biểu thị xu hướng bậc ba. Trong một số trường hợp dữ liệu thỏa điều kiện nhất định, các hệ số này là độc lập về mặt thống kê.

Vì $p_0,\dots,p_3$ là trực giao, ta có thể tính từng hệ số xu hướng một cách riêng rẽ, không phụ thuộc vào các hệ số còn lại. (Nhớ rằng: $c_i={\langle g,p_i\rangle}/{\langle p_i,p_i\rangle}$ .) Ta có thể bỏ qua $p_3$ và $c_3$ nếu chỉ quan tâm đến xu hướng bậc hai. Và nếu, chẳng hạn, ta muốn xác định xu hướng bậc bốn, ta chỉ cần tìm một đa thức $p_4\in\mathbb{P}_4$ trực giao với $\mathbb{P}_3$ (sử dụng Gram-Schmidt), rồi tính ${\langle g,p_4\rangle}/{\langle p_4,p_4\rangle}$ .

Ví dụ 2: Ứng dụng đơn giản và phổ biến nhất của phân tích xu hướng xảy ra khi các điểm $t_0,\dots,t_n$ có thể được điều chỉnh sao cho cách đều nhau và tổng bằng 0. Hãy tìm một hàm xu hướng bậc hai phù hợp với các dữ liệu $(-2,3),(-1,5),(0,5),(1,4),(2,3)$ .

Giải: Các tọa độ $t$ đã được chia tỷ lệ phù hợp để sử dụng các đa thức trực giao

$\begin{bmatrix}1\\1\\1\\1\\1\end{bmatrix},\quad\begin{bmatrix}-2\\-1\\0\\1\\2\end{bmatrix},\quad\begin{bmatrix}2\\-1\\-2\\-1\\2\end{bmatrix},\quad\begin{bmatrix}3\\5\\5\\4\\3\end{bmatrix}$

Các phép tính chỉ sử dụng các vectơ này, không cần đến công thức cụ thể của các đa thức trực giao. Xấp xỉ tốt nhất cho dữ liệu bằng các đa thức trong $\mathbb{P}_2$ là hình chiếu trực giao được cho bởi:

$\begin{matrix}\hat{p}=&\frac{\langle g,p_0\rangle}{\langle p_0,p_0\rangle}p_0+\frac{\langle g,p_1\rangle}{\langle p_1,p_1\rangle}p_1+\frac{\langle g,p_2\rangle}{\langle p_2,p_2\rangle}p_2\\\quad=&\frac{20}{5}p_0-\frac{1}{10}p_1-\frac{7}{14}p_2\\\end{matrix}$

Và

(3) $\begin{equation*}\hat{p}(t)=4-.1t-.5(t^2-2)\end{equation*}$

Vì hệ số của $p_2$ không quá nhỏ, nên có thể kết luận hợp lý rằng dữ liệu có xu hướng ít nhất là bậc hai. Điều này được xác nhận bởi đồ thị trong hình 2.

Phân Tích Xu Hướng Dữ Liệu

Để lại một bình luận Hủy

Chịu trách nhiệm nội dung

Bản quyền

Ý kiến bạn đọc

Bài giảng 21: Ứng dụng của Không Gian Tích Trong (tiếp theo)

Lesson Attachments

Phân Tích Xu Hướng Dữ Liệu

Để lại một bình luận Hủy