Bàigiảng 35: Phân tích thành phần chính

Lesson Attachments

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Để đơn giản, giả sử rằng ma trận [\mathbf{X}_1\,\quad\ldots\quad\mathbf{X}_N] đã ở dạng sai lệch trung bình. Mục tiêu của phân tích thành phần chính là tìm một ma trận trực giao p\times p P=[\mathbf{u}_1\quad\ldots\quad\mathbf{u}_p], sao cho xác định được một phép đổi biến \mathbf{X}=P\mathbf{Y}, tức là

\quad\begin{bmatrix}x_1\\x_2\\\vdots\\x_p\end{bmatrix}=\begin{bmatrix}\mathbf{u}_1&\mathbf{u}_2&\cdots&\mathbf{u}_p\end{bmatrix}\begin{bmatrix}y_1\\y_2\\\vdots\\y_p\end{bmatrix}

với tính chất là các biến mới y_1,\ldots,y_p là không tương quan và được sắp xếp theo thứ tự giảm dần về phương sai.

Phép đổi biến trực giao \mathbf{X}=P\mathbf{Y} có nghĩa là mỗi vector quan sát \mathbf{X}_k sẽ được gán một “tên mới”, \mathbf{Y}_k, sao cho \mathbf{X}_k=P\mathbf{Y}_k. Lưu ý rằng \mathbf{Y}_k chính là vector tọa độ của \mathbf{X}_k theo hệ cơ sở là các cột của P, và \mathbf{Y}_k=P^{-1}\mathbf{X}_k=P^T\mathbf{X}_k với k=1,\ldots,N.

Không khó để kiểm chứng rằng với mọi ma trận trực giao P, ma trận hiệp phương sai của các vector \mathbf{Y}_1,\ldots,\mathbf{Y}_NP^T S P. Vì vậy, ma trận trực giao P mong muốn là ma trận sao cho P^T S P là ma trận đường chéo. Gọi D là ma trận đường chéo chứa các giá trị riêng \lambda_1,\ldots,\lambda_p của S trên đường chéo, được sắp xếp sao cho \lambda_1\geq\lambda_2\geq\ldots\geq\lambda_p\geq 0, và gọi P là ma trận trực giao có các cột là các vector riêng đơn vị tương ứng \mathbf{u}_1,\ldots,\mathbf{u}_p. Khi đó, ta có S=P D P^T P^T S P=D.

Các vector riêng đơn vị \mathbf{u}_1,\ldots,\mathbf{u}_p của ma trận hiệp phương sai S được gọi là các thành phần chính của dữ liệu (trong ma trận quan sát).

  • Thành phần chính thứ nhất là vector riêng tương ứng với giá trị riêng lớn nhất của S.
  • Thành phần chính thứ hai là vector riêng tương ứng với giá trị riêng lớn thứ hai, và cứ như vậy.

Thành phần chính thứ nhất \mathbf{u}_1 xác định biến mới y_1 theo cách sau: Gọi c_1,\ldots,c_p là các thành phần của vector \mathbf{u}_1. Vì \mathbf{u}_1^T là hàng đầu tiên của P^T, nên phương trình \mathbf{Y}=P^T\mathbf{X} cho thấy:

y_1=\mathbf{u}_1^T\mathbf{X}=c_1 x_1+c_2 x_2+\ldots+c_p x_p

Nghĩa là, y_1 là tổ hợp tuyến tính của các biến ban đầu x_1,\ldots,x_p, với các hệ số chính là các thành phần của vector riêng \mathbf{u}_1. Tương tự, \mathbf{u}_2 sẽ xác định biến y_2, và cứ tiếp tục như vậy với các thành phần chính còn lại.

Ví dụ 4: Dữ liệu ban đầu cho ảnh đa phổ của Railroad Valley gồm 4 triệu vector trong \mathbb{R}^3. Ma trận hiệp phương sai tương ứng là:

S=\begin{bmatrix}2382.78&2611.84&2136.20\\2611.84&3106.47&2553.90\\2136.20&2553.90&2650.71\end{bmatrix}

Tìm các thành phần chính của dữ liệu và liệt kê biến mới được xác định bởi thành phần chính thứ nhất.

Giải: Các giá trị riêng của ma trận hiệp phương sai S và các thành phần chính tương ứng (vector riêng đơn vị) là:

\begin{matrix}\lambda_1=7614.23&\lambda_2=427.63&\lambda_3=98.10\\\mathbf{u}_1=\begin{bmatrix}.5417\\.6295\\.5570\end{bmatrix}&\mathbf{u}_2=\begin{bmatrix}-.4894\\-.3026\\.8179\end{bmatrix}&\mathbf{u}_3=\begin{bmatrix}.6834\\-.7157\\.1441\end{bmatrix}\\\end{matrix}

Sử dụng làm tròn đến hai chữ số thập phân, thành phần chính thứ nhất xác định biến mới:

y_1=.54x_1+.63x_2+.56x_3

Phương trình này được sử dụng để tạo ra bức ảnh (d) trong phần mở đầu của chương. Các biến x_1,x_2,x_3 là cường độ tín hiệu trong ba dải phổ khác nhau. Các giá trị của x_1, sau khi được chuyển thành thang độ xám (từ đen đến trắng), tạo nên bức ảnh (a). Tương tự, các giá trị của x_2x_3 tạo nên các bức ảnh (b) và (c). Tại mỗi điểm ảnh (pixel) trong bức ảnh (d), giá trị thang xám được tính từ y_1, là một tổ hợp tuyến tính có trọng số của x_1,x_2x_3. Theo nghĩa đó, bức ảnh (d) “hiển thị” thành phần chính thứ nhất của dữ liệu.

Trong ví dụ 4, ma trận hiệp phương sai của dữ liệu đã biến đổi, sử dụng các biến mới y_1,y_2,y_3, là:

D=\begin{bmatrix}7614.23&0&0\\0&427.63&0\\0&0&98.10\\\end{bmatrix}

Mặc dù ma trận D rõ ràng đơn giản hơn so với ma trận hiệp phương sai ban đầu S, nhưng giá trị thực tiễn của việc xây dựng các biến mới vẫn chưa rõ ràng ngay. Tuy nhiên, ta thấy rằng các phương sai của các biến y_1, y_2y_3 nằm ngay trên đường chéo chính của ma trận D, và rõ ràng phương sai đầu tiên (của y_1) lớn hơn rất nhiều so với hai phương sai còn lại. Như chúng ta sẽ thấy, thực tế này cho phép chúng ta xem tập dữ liệu như gần như chỉ có một chiều (1D), thay vì ba chiều (3D).

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Hotline: 039.2266.928
Khóa học Toefl
Phone now