Bài giảng 36: Giảm số chiều của dữ liệu đa biến
(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)
Phân tích thành phần chính (Principal Component Analysis – PCA) đặc biệt hữu ích trong các ứng dụng mà phần lớn sự biến thiên, hoặc phạm vi động, trong dữ liệu là do sự thay đổi của chỉ một vài biến mới,
.
Người ta có thể chứng minh rằng một phép biến đổi biến bằng ma trận trực giao
không làm thay đổi tổng phương sai của dữ liệu. (Hiểu một cách đơn giản, điều này đúng bởi vì phép nhân trái với ma trận trực giao
không làm thay đổi độ dài của các vector hay góc giữa chúng.) Do đó, nếu
, thì:
Tổng phương sai ![]()
Trong đó:
là phương sai của biến
j,- Tỷ lệ
cho biết phần trăm tổng phương sai được “giải thích” hoặc “nắm bắt” bởi biến
.
Ví dụ 5: Tính các tỷ lệ phần trăm phương sai của dữ liệu ảnh đa phổ Railroad Valley được thể hiện trong các ảnh thành phần chính, (d)–(f), như đã hiển thị trong phần giới thiệu của phần 7.
Giải: Tổng phương sai của dữ liệu là
![]()
- Thành phần thứ nhất

- Thành phần thứ hai

- Thành phần thứ ba

Theo một nghĩa nào đó,
thông tin thu thập được bởi Landsat về vùng Railroad Valley được thể hiện trong bức ảnh (d), với
trong (e), và chỉ còn
nằm trong (f).
Các phép tính trong ví dụ 5 cho thấy rằng dữ liệu gần như không có phương sai trong tọa độ (mới) thứ ba. Các giá trị của
đều gần bằng 0. Về mặt hình học, các điểm dữ liệu gần như nằm trên mặt phẳng
, và vị trí của chúng có thể được xác định khá chính xác chỉ bằng các giá trị của
và
. Thực tế,
cũng có phương sai tương đối nhỏ, điều này có nghĩa là các điểm gần như nằm dọc theo một đường thẳng, và dữ liệu về bản chất là một chiều.
Các đặc trưng của các biến thành phần chính
Nếu các biến
xuất phát từ phân tích thành phần chính của một ma trận quan sát kích thước
, thì phương sai của
là lớn nhất có thể theo nghĩa sau: Nếu
là một vector đơn vị bất kỳ và nếu
, thì phương sai của các giá trị
khi
thay đổi trong tập dữ liệu gốc
sẽ bằng
. Theo Định lý 8, giá trị lớn nhất của
trên tất cả các vector đơn vị
là giá trị riêng lớn nhất
của
, và phương sai này đạt được khi
là vector riêng tương ứng u1u_1. Tương tự, Định lý 8 cho thấy
có phương sai lớn nhất có thể trong số tất cả các biến
mà không tương quan với
. Tương tự,
có phương sai lớn nhất trong số tất cả các biến không tương quan với cả
và
, và cứ như vậy.
Ghi chú số học
Phân rã giá trị suy biến (SVD – Singular Value Decomposition) là công cụ chính để thực hiện phân tích thành phần chính (PCA) trong các ứng dụng thực tế. Nếu
là ma trận kích thước
của các quan sát đã được đưa về dạng sai lệch trung bình, và nếu đặt
, thì
chính là ma trận hiệp phương sai
. Bình phương của các giá trị suy biến của
là các giá trị riêng của
, và các vector suy biến bên phải của
chính là các thành phần chính của dữ liệu.
Như đã đề cập, việc tính toán phân rã SVD một cách lặp nhanh hơn và chính xác hơn so với phân tích giá trị riêng của
. Điều này đặc biệt đúng, chẳng hạn, trong xử lý ảnh siêu phổ với
như đã nêu trong phần giới thiệu. Phân tích thành phần chính được thực hiện chỉ trong vài giây trên các trạm làm việc chuyên dụng.
- 1 - Bài giảng 23: Xử lý ảnh đa kênh
- 2 - Bài giảng 24: Chéo hóa ma trận đối xứng
- 3 - Bài giảng 25: Phân tích phổ
- 4 - Bài giảng 26: Dạng Toàn Phương
- 5 - Bài giảng 27: Một góc nhìn hình học về các trục chính
- 6 - Bài giảng 28: Phân loại Dạng Toàn Phương
- 7 - Bài giảng 29: Tối ưu hóa có ràng buộc
- 8 - Bài giảng 30: Phân tích giá trị kỳ dị (Singular Value Decomposition)
- 9 - Bài giảng 31: Phân tích giá trị kỳ dị (tiếp theo)
- 10 - Bài giảng 32: Ứng dụng của Phân Tích Giá Trị Kỳ Dị (SVD)
- 11 - Bài giảng 33: Ứng dụng PCA (SVD) trong Xử Lý Ảnh và Thống Kê
- 12 - Bài giảng 34: Trung bình và hiệp phương sai
- 13 - Bàigiảng 35: Phân tích thành phần chính
- 14 - Bài giảng 36: Giảm số chiều của dữ liệu đa biến
