Bàigiảng 35: Phân tích thành phần chính
(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)
Để đơn giản, giả sử rằng ma trận
đã ở dạng sai lệch trung bình. Mục tiêu của phân tích thành phần chính là tìm một ma trận trực giao
, sao cho xác định được một phép đổi biến
, tức là

với tính chất là các biến mới
là không tương quan và được sắp xếp theo thứ tự giảm dần về phương sai.
Phép đổi biến trực giao
có nghĩa là mỗi vector quan sát
sẽ được gán một “tên mới”,
, sao cho
. Lưu ý rằng
chính là vector tọa độ của
theo hệ cơ sở là các cột của
, và
với
.
Không khó để kiểm chứng rằng với mọi ma trận trực giao
, ma trận hiệp phương sai của các vector
là
. Vì vậy, ma trận trực giao
mong muốn là ma trận sao cho
là ma trận đường chéo. Gọi
là ma trận đường chéo chứa các giá trị riêng
của
trên đường chéo, được sắp xếp sao cho
, và gọi
là ma trận trực giao có các cột là các vector riêng đơn vị tương ứng
. Khi đó, ta có
và
.
Các vector riêng đơn vị
của ma trận hiệp phương sai
được gọi là các thành phần chính của dữ liệu (trong ma trận quan sát).
- Thành phần chính thứ nhất là vector riêng tương ứng với giá trị riêng lớn nhất của
. - Thành phần chính thứ hai là vector riêng tương ứng với giá trị riêng lớn thứ hai, và cứ như vậy.
Thành phần chính thứ nhất
xác định biến mới
theo cách sau: Gọi
là các thành phần của vector
. Vì
là hàng đầu tiên của
, nên phương trình
cho thấy:
![]()
Nghĩa là,
là tổ hợp tuyến tính của các biến ban đầu
, với các hệ số chính là các thành phần của vector riêng
. Tương tự,
sẽ xác định biến
, và cứ tiếp tục như vậy với các thành phần chính còn lại.
Ví dụ 4: Dữ liệu ban đầu cho ảnh đa phổ của Railroad Valley gồm 4 triệu vector trong
. Ma trận hiệp phương sai tương ứng là:

Tìm các thành phần chính của dữ liệu và liệt kê biến mới được xác định bởi thành phần chính thứ nhất.
Giải: Các giá trị riêng của ma trận hiệp phương sai
và các thành phần chính tương ứng (vector riêng đơn vị) là:

Sử dụng làm tròn đến hai chữ số thập phân, thành phần chính thứ nhất xác định biến mới:
![]()
Phương trình này được sử dụng để tạo ra bức ảnh (d) trong phần mở đầu của chương. Các biến
là cường độ tín hiệu trong ba dải phổ khác nhau. Các giá trị của
, sau khi được chuyển thành thang độ xám (từ đen đến trắng), tạo nên bức ảnh (a). Tương tự, các giá trị của
và
tạo nên các bức ảnh (b) và (c). Tại mỗi điểm ảnh (pixel) trong bức ảnh (d), giá trị thang xám được tính từ
, là một tổ hợp tuyến tính có trọng số của
và
. Theo nghĩa đó, bức ảnh (d) “hiển thị” thành phần chính thứ nhất của dữ liệu.
Trong ví dụ 4, ma trận hiệp phương sai của dữ liệu đã biến đổi, sử dụng các biến mới
, là:

Mặc dù ma trận
rõ ràng đơn giản hơn so với ma trận hiệp phương sai ban đầu
, nhưng giá trị thực tiễn của việc xây dựng các biến mới vẫn chưa rõ ràng ngay. Tuy nhiên, ta thấy rằng các phương sai của các biến
,
và
nằm ngay trên đường chéo chính của ma trận
, và rõ ràng phương sai đầu tiên (của
) lớn hơn rất nhiều so với hai phương sai còn lại. Như chúng ta sẽ thấy, thực tế này cho phép chúng ta xem tập dữ liệu như gần như chỉ có một chiều (1D), thay vì ba chiều (3D).
- 1 - Bài giảng 23: Xử lý ảnh đa kênh
- 2 - Bài giảng 24: Chéo hóa ma trận đối xứng
- 3 - Bài giảng 25: Phân tích phổ
- 4 - Bài giảng 26: Dạng Toàn Phương
- 5 - Bài giảng 27: Một góc nhìn hình học về các trục chính
- 6 - Bài giảng 28: Phân loại Dạng Toàn Phương
- 7 - Bài giảng 29: Tối ưu hóa có ràng buộc
- 8 - Bài giảng 30: Phân tích giá trị kỳ dị (Singular Value Decomposition)
- 9 - Bài giảng 31: Phân tích giá trị kỳ dị (tiếp theo)
- 10 - Bài giảng 32: Ứng dụng của Phân Tích Giá Trị Kỳ Dị (SVD)
- 11 - Bài giảng 33: Ứng dụng PCA (SVD) trong Xử Lý Ảnh và Thống Kê
- 12 - Bài giảng 34: Trung bình và hiệp phương sai
- 13 - Bàigiảng 35: Phân tích thành phần chính
- 14 - Bài giảng 36: Giảm số chiều của dữ liệu đa biến
