Bài giảng 34: Trung bình và hiệp phương sai

Lesson Attachments

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Để chuẩn bị cho phân tích thành phần chính (PCA), giả sử ta có ma trận quan sát [\mathbf{X}_1\quad\ldots\quad\mathbf{X}_N] là một ma trận kích thước p\times N, như đã mô tả ở trên. Trung bình mẫu \mathbf{M} của các vector quan sát \mathbf{X}_1,\ldots,\mathbf{X}_N được cho bởi:

\mathbf{M}=\frac{1}{N}(\mathbf{X}_1+\cdots+\mathbf{X}_N)

Đối với dữ liệu trong hình 1, trung bình mẫu là điểm nằm ở “trung tâm” của biểu đồ phân tán. Với k=1,\ldots,N, đặt:

\mathbf{\hat{X}}_k=\mathbf{X}_k-\mathbf{M}

Các cột của ma trận kích thước p\times N

B=[\mathbf{\hat{X}}_1\quad\mathbf{\hat{X}}_2\quad\ldots\quad\mathbf{\hat{X}}_N]

có trung bình mẫu bằng không, và B được gọi là ở dạng độ lệch so với trung bình. Khi trung bình mẫu được trừ khỏi dữ liệu trong hình 1, biểu đồ phân tán thu được có dạng như hình 3.

Hình 3: Dữ liệu cân nặng – chiều cao ở dạng độ lệch so với trung bình.

Ma trận hiệp phương sai (mẫu) là ma trận p\times p được định nghĩa bởi:

S=\frac{1}{N-1}B B^T

Vì bất kỳ ma trận nào có dạng B B^T đều là nửa xác định dương, nên ma trận S cũng vậy.

Ví dụ 3: Ba phép đo được thực hiện trên mỗi cá nhân trong một mẫu ngẫu nhiên gồm bốn người từ một quần thể. Các vector quan sát là:

\mathbf{X}_1=\begin{bmatrix}1\\2\\1\end{bmatrix},\quad\mathbf{X}_2=\begin{bmatrix}4\\2\\13\end{bmatrix},\quad\mathbf{X}_3=\begin{bmatrix}7\\8\\1\end{bmatrix},\quad X_4=\begin{bmatrix}8\\4\\5\end{bmatrix}

Hãy tính trung bình mẫu và ma trận hiệp phương sai.

Giải: Trung bình mẫu là:

M=\frac{1}{4}\left(\begin{bmatrix}1\\2\\1\end{bmatrix}+\begin{bmatrix}4\\2\\13\end{bmatrix}+\begin{bmatrix}7\\8\\1\end{bmatrix}+\begin{bmatrix}8\\4\\5\end{bmatrix}\right)=\frac{1}{4}\begin{bmatrix}5\\4\\5\end{bmatrix}

Trừ trung bình mẫu khỏi \mathbf{X}_1,...,\mathbf{X}_4 để được:

\mathbf{\hat{X}}_1=\begin{bmatrix}-4\\-2\\-4\end{bmatrix},\quad\mathbf{\hat{X}}_2=\begin{bmatrix}-1\\-2\\8\end{bmatrix},\quad\mathbf{\hat{X}}_3=\begin{bmatrix}2\\4\\-4\end{bmatrix},\quad\mathbf{\hat{X}}_4=\begin{bmatrix}3\\0\\0\end{bmatrix}

B=\begin{bmatrix}-4&-1&2&3\\-2&-2&4&0\\-4&8&-4&0\\\end{bmatrix}

Ma trận hiệp phương sai mẫu là:

S=\frac{1}{3}\begin{bmatrix}-4&-1&2&3\\-2&-2&4&0\\-4&8&-4&0\\\end{bmatrix}\begin{bmatrix}-4&-2&-4\\-1&-2&8\\2&4&-4\\3&0&0\\\end{bmatrix}

=\frac{1}{3}\begin{bmatrix}30&18&0\\18&24&-24\\0&-24&96\\\end{bmatrix}=\begin{bmatrix}10&6&0\\6&8&-8\\0&-8&32\\\end{bmatrix}

Để thảo luận về các phần tử trong S=[s_{ij}], ta để \mathbf{X} biểu diễn một vectơ biến thiên trong tập các vectơ quan sát và ký hiệu các tọa độ của \mathbf{X}x_1,x_2,\ldots,x_p. Khi đó, chẳng hạn x_1 là một đại lượng vô hướng biến thiên theo tập các tọa độ thứ nhất của \mathbf{X}_1,\ldots,\mathbf{X}_N. Với j=1,\ldots,p, phần tử đường chéo s_{jj} trong S được gọi là phương sai của x_j.

Phương sai của x_j đo lường mức độ phân tán của các giá trị x_j. Trong Ví dụ 3, phương sai của x_110 và phương sai của x_332. Việc 32 lớn hơn 10 cho thấy rằng tập các giá trị thành phần thứ ba trong các vectơ phản hồi có mức độ phân tán lớn hơn tập các giá trị thành phần thứ nhất.

Tổng phương sai của dữ liệu là tổng các phương sai trên đường chéo của ma trận S. Nói chung, tổng các phần tử trên đường chéo chính của một ma trận vuông S được gọi là “vết” (trace) của ma trận, ký hiệu là \text{tr}(S). Do đó:

(tổng phương sai) =\text{tr}(S)

Phần tử s_{ij} trong ma trận S với i\ne j được gọi là hiệp phương sai giữa x_ix_j. Quan sát rằng trong ví dụ 3, hiệp phương sai giữa x_1x_3 bằng 0 vì phần tử ở vị trí (1,3) trong ma trận S bằng 0. Các nhà thống kê gọi x_1x_3 là không tương quan. Việc phân tích dữ liệu đa biến trong các vectơ \mathbf{X}_1,\ldots,\mathbf{X}_N trở nên đơn giản hơn rất nhiều khi hầu hết hoặc tất cả các biến x_1,\ldots,x_p là không tương quan, tức là khi ma trận hiệp phương sai của các vectơ \mathbf{X}_1,\ldots,\mathbf{X}_N là ma trận đường chéo, hoặc gần như là ma trận đường chéo.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Hotline: 039.2266.928
Khóa học Toefl
Phone now