Bàigiảng 35: Phân tích thành phần chính

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Để đơn giản, giả sử rằng ma trận $[\mathbf{X}_1\,\quad\ldots\quad\mathbf{X}_N]$ đã ở dạng sai lệch trung bình. Mục tiêu của phân tích thành phần chính là tìm một ma trận trực giao $p\times p$ $P=[\mathbf{u}_1\quad\ldots\quad\mathbf{u}_p]$ , sao cho xác định được một phép đổi biến $\mathbf{X}=P\mathbf{Y}$ , tức là

$\quad\begin{bmatrix}x_1\\x_2\\\vdots\\x_p\end{bmatrix}=\begin{bmatrix}\mathbf{u}_1&\mathbf{u}_2&\cdots&\mathbf{u}_p\end{bmatrix}\begin{bmatrix}y_1\\y_2\\\vdots\\y_p\end{bmatrix}$

với tính chất là các biến mới $y_1,\ldots,y_p$ là không tương quan và được sắp xếp theo thứ tự giảm dần về phương sai.

Phép đổi biến trực giao $\mathbf{X}=P\mathbf{Y}$ có nghĩa là mỗi vector quan sát $\mathbf{X}_k$ sẽ được gán một “tên mới”, $\mathbf{Y}_k$ , sao cho $\mathbf{X}_k=P\mathbf{Y}_k$ . Lưu ý rằng $\mathbf{Y}_k$ chính là vector tọa độ của $\mathbf{X}_k$ theo hệ cơ sở là các cột của $P$ , và $\mathbf{Y}_k=P^{-1}\mathbf{X}_k=P^T\mathbf{X}_k$ với $k=1,\ldots,N$ .

Không khó để kiểm chứng rằng với mọi ma trận trực giao $P$ , ma trận hiệp phương sai của các vector $\mathbf{Y}_1,\ldots,\mathbf{Y}_N$ là $P^T S P$ . Vì vậy, ma trận trực giao $P$ mong muốn là ma trận sao cho $P^T S P$ là ma trận đường chéo. Gọi $D$ là ma trận đường chéo chứa các giá trị riêng $\lambda_1,\ldots,\lambda_p$ của $S$ trên đường chéo, được sắp xếp sao cho $\lambda_1\geq\lambda_2\geq\ldots\geq\lambda_p\geq 0$ , và gọi $P$ là ma trận trực giao có các cột là các vector riêng đơn vị tương ứng $\mathbf{u}_1,\ldots,\mathbf{u}_p$ . Khi đó, ta có $S=P D P^T$ và $P^T S P=D$ .

Các vector riêng đơn vị $\mathbf{u}_1,\ldots,\mathbf{u}_p$ của ma trận hiệp phương sai $S$ được gọi là các thành phần chính của dữ liệu (trong ma trận quan sát).

Thành phần chính thứ nhất là vector riêng tương ứng với giá trị riêng lớn nhất của $S$ .
Thành phần chính thứ hai là vector riêng tương ứng với giá trị riêng lớn thứ hai, và cứ như vậy.

Thành phần chính thứ nhất $\mathbf{u}_1$ xác định biến mới $y_1$ theo cách sau: Gọi $c_1,\ldots,c_p$ là các thành phần của vector $\mathbf{u}_1$ . Vì $\mathbf{u}_1^T$ là hàng đầu tiên của $P^T$ , nên phương trình $\mathbf{Y}=P^T\mathbf{X}$ cho thấy:

$y_1=\mathbf{u}_1^T\mathbf{X}=c_1 x_1+c_2 x_2+\ldots+c_p x_p$

Nghĩa là, $y_1$ là tổ hợp tuyến tính của các biến ban đầu $x_1,\ldots,x_p$ , với các hệ số chính là các thành phần của vector riêng $\mathbf{u}_1$ . Tương tự, $\mathbf{u}_2$ sẽ xác định biến $y_2$ , và cứ tiếp tục như vậy với các thành phần chính còn lại.

Ví dụ 4: Dữ liệu ban đầu cho ảnh đa phổ của Railroad Valley gồm 4 triệu vector trong $\mathbb{R}^3$ . Ma trận hiệp phương sai tương ứng là:

$S=\begin{bmatrix}2382.78&2611.84&2136.20\\2611.84&3106.47&2553.90\\2136.20&2553.90&2650.71\end{bmatrix}$

Tìm các thành phần chính của dữ liệu và liệt kê biến mới được xác định bởi thành phần chính thứ nhất.

Giải: Các giá trị riêng của ma trận hiệp phương sai $S$ và các thành phần chính tương ứng (vector riêng đơn vị) là:

$\begin{matrix}\lambda_1=7614.23&\lambda_2=427.63&\lambda_3=98.10\\\mathbf{u}_1=\begin{bmatrix}.5417\\.6295\\.5570\end{bmatrix}&\mathbf{u}_2=\begin{bmatrix}-.4894\\-.3026\\.8179\end{bmatrix}&\mathbf{u}_3=\begin{bmatrix}.6834\\-.7157\\.1441\end{bmatrix}\\\end{matrix}$

Sử dụng làm tròn đến hai chữ số thập phân, thành phần chính thứ nhất xác định biến mới:

$y_1=.54x_1+.63x_2+.56x_3$

Phương trình này được sử dụng để tạo ra bức ảnh (d) trong phần mở đầu của chương. Các biến $x_1,x_2,x_3$ là cường độ tín hiệu trong ba dải phổ khác nhau. Các giá trị của $x_1$ , sau khi được chuyển thành thang độ xám (từ đen đến trắng), tạo nên bức ảnh (a). Tương tự, các giá trị của $x_2$ và $x_3$ tạo nên các bức ảnh (b) và (c). Tại mỗi điểm ảnh (pixel) trong bức ảnh (d), giá trị thang xám được tính từ $y_1$ , là một tổ hợp tuyến tính có trọng số của $x_1,x_2$ và $x_3$ . Theo nghĩa đó, bức ảnh (d) “hiển thị” thành phần chính thứ nhất của dữ liệu.

Trong ví dụ 4, ma trận hiệp phương sai của dữ liệu đã biến đổi, sử dụng các biến mới $y_1,y_2,y_3$ , là:

$D=\begin{bmatrix}7614.23&0&0\\0&427.63&0\\0&0&98.10\\\end{bmatrix}$

Mặc dù ma trận $D$ rõ ràng đơn giản hơn so với ma trận hiệp phương sai ban đầu $S$ , nhưng giá trị thực tiễn của việc xây dựng các biến mới vẫn chưa rõ ràng ngay. Tuy nhiên, ta thấy rằng các phương sai của các biến $y_1$ , $y_2$ và $y_3$ nằm ngay trên đường chéo chính của ma trận $D$ , và rõ ràng phương sai đầu tiên (của $y_1$ ) lớn hơn rất nhiều so với hai phương sai còn lại. Như chúng ta sẽ thấy, thực tế này cho phép chúng ta xem tập dữ liệu như gần như chỉ có một chiều (1D), thay vì ba chiều (3D).

Để lại một bình luận Hủy

Chịu trách nhiệm nội dung

Bản quyền

Ý kiến bạn đọc

Bàigiảng 35: Phân tích thành phần chính

Lesson Attachments

Để lại một bình luận Hủy