Bài giảng 34: Trung bình và hiệp phương sai
(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)
Để chuẩn bị cho phân tích thành phần chính (PCA), giả sử ta có ma trận quan sát là một ma trận kích thước
, như đã mô tả ở trên. Trung bình mẫu
của các vector quan sát
được cho bởi:
Đối với dữ liệu trong hình 1, trung bình mẫu là điểm nằm ở “trung tâm” của biểu đồ phân tán. Với , đặt:
Các cột của ma trận kích thước
có trung bình mẫu bằng không, và được gọi là ở dạng độ lệch so với trung bình. Khi trung bình mẫu được trừ khỏi dữ liệu trong hình 1, biểu đồ phân tán thu được có dạng như hình 3.

Ma trận hiệp phương sai (mẫu) là ma trận được định nghĩa bởi:
Vì bất kỳ ma trận nào có dạng đều là nửa xác định dương, nên ma trận
cũng vậy.
Ví dụ 3: Ba phép đo được thực hiện trên mỗi cá nhân trong một mẫu ngẫu nhiên gồm bốn người từ một quần thể. Các vector quan sát là:
Hãy tính trung bình mẫu và ma trận hiệp phương sai.
Giải: Trung bình mẫu là:
Trừ trung bình mẫu khỏi để được:
và
Ma trận hiệp phương sai mẫu là:
Để thảo luận về các phần tử trong , ta để
biểu diễn một vectơ biến thiên trong tập các vectơ quan sát và ký hiệu các tọa độ của
là
. Khi đó, chẳng hạn
là một đại lượng vô hướng biến thiên theo tập các tọa độ thứ nhất của
. Với
, phần tử đường chéo
trong
được gọi là phương sai của
.
Phương sai của đo lường mức độ phân tán của các giá trị
. Trong Ví dụ 3, phương sai của
là
và phương sai của
là
. Việc
lớn hơn
cho thấy rằng tập các giá trị thành phần thứ ba trong các vectơ phản hồi có mức độ phân tán lớn hơn tập các giá trị thành phần thứ nhất.
Tổng phương sai của dữ liệu là tổng các phương sai trên đường chéo của ma trận . Nói chung, tổng các phần tử trên đường chéo chính của một ma trận vuông
được gọi là “vết” (trace) của ma trận, ký hiệu là
. Do đó:
(tổng phương sai)
Phần tử trong ma trận
với
được gọi là hiệp phương sai giữa
và
. Quan sát rằng trong ví dụ 3, hiệp phương sai giữa
và
bằng 0 vì phần tử ở vị trí
trong ma trận
bằng 0. Các nhà thống kê gọi
và
là không tương quan. Việc phân tích dữ liệu đa biến trong các vectơ
trở nên đơn giản hơn rất nhiều khi hầu hết hoặc tất cả các biến
là không tương quan, tức là khi ma trận hiệp phương sai của các vectơ
là ma trận đường chéo, hoặc gần như là ma trận đường chéo.
- 1 - Bài giảng 23: Xử lý ảnh đa kênh
- 2 - Bài giảng 24: Chéo hóa ma trận đối xứng
- 3 - Bài giảng 25: Phân tích phổ
- 4 - Bài giảng 26: Dạng Toàn Phương
- 5 - Bài giảng 27: Một góc nhìn hình học về các trục chính
- 6 - Bài giảng 28: Phân loại Dạng Toàn Phương
- 7 - Bài giảng 29: Tối ưu hóa có ràng buộc
- 8 - Bài giảng 30: Phân tích giá trị kỳ dị (Singular Value Decomposition)
- 9 - Bài giảng 31: Phân tích giá trị kỳ dị (tiếp theo)
- 10 - Bài giảng 32: Ứng dụng của Phân Tích Giá Trị Kỳ Dị (SVD)
- 11 - Bài giảng 33: Ứng dụng PCA (SVD) trong Xử Lý Ảnh và Thống Kê
- 12 - Bài giảng 34: Trung bình và hiệp phương sai
- 13 - Bàigiảng 35: Phân tích thành phần chính
- 14 - Bài giảng 36: Giảm số chiều của dữ liệu đa biến