Bài giảng 36: Giảm số chiều của dữ liệu đa biến

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Phân tích thành phần chính (Principal Component Analysis – PCA) đặc biệt hữu ích trong các ứng dụng mà phần lớn sự biến thiên, hoặc phạm vi động, trong dữ liệu là do sự thay đổi của chỉ một vài biến mới, $y_1,\ldots,y_p$ .

Người ta có thể chứng minh rằng một phép biến đổi biến bằng ma trận trực giao $\mathbf{X}=P\mathbf{Y}$ không làm thay đổi tổng phương sai của dữ liệu. (Hiểu một cách đơn giản, điều này đúng bởi vì phép nhân trái với ma trận trực giao $P$ không làm thay đổi độ dài của các vector hay góc giữa chúng.) Do đó, nếu $S=P D P^T$ , thì:

Tổng phương sai $=\text{tr}(D)=\lambda_1+\cdots+\lambda_p$

Trong đó:

$\lambda_j$ là phương sai của biến $y_j$ j,
Tỷ lệ $\lambda_j/\text{tr}(S)$ cho biết phần trăm tổng phương sai được “giải thích” hoặc “nắm bắt” bởi biến $y_j$ .

Ví dụ 5: Tính các tỷ lệ phần trăm phương sai của dữ liệu ảnh đa phổ Railroad Valley được thể hiện trong các ảnh thành phần chính, (d)–(f), như đã hiển thị trong phần giới thiệu của phần 7.

Giải: Tổng phương sai của dữ liệu là

$=\text{tr}(D)=7614.23+427.63+98.10=8139.96$

[Hãy kiểm tra rằng con số này cũng bằng $\text{tr}(S)$ .] Tỷ lệ phần trăm của tổng phương sai được giải thích bởi các thành phần chính là:

Thành phần thứ nhất
$\dfrac{7614.23}{8139.96}\approx 93.5\%$
Thành phần thứ hai
$\dfrac{427.63}{8139.96}\approx 5.3\%$
Thành phần thứ ba
$\dfrac{98.10}{8139.96}\approx 1.2\%$

Theo một nghĩa nào đó, $93.5%$ thông tin thu thập được bởi Landsat về vùng Railroad Valley được thể hiện trong bức ảnh (d), với $5.3%$ trong (e), và chỉ còn $1.2%$ nằm trong (f).

Các phép tính trong ví dụ 5 cho thấy rằng dữ liệu gần như không có phương sai trong tọa độ (mới) thứ ba. Các giá trị của $y_3$ đều gần bằng 0. Về mặt hình học, các điểm dữ liệu gần như nằm trên mặt phẳng $y_3=0$ , và vị trí của chúng có thể được xác định khá chính xác chỉ bằng các giá trị của $y_1$ và $y_2$ . Thực tế, $y_2$ cũng có phương sai tương đối nhỏ, điều này có nghĩa là các điểm gần như nằm dọc theo một đường thẳng, và dữ liệu về bản chất là một chiều.

Các đặc trưng của các biến thành phần chính

Nếu các biến $y_1,\dots,y_p$ xuất phát từ phân tích thành phần chính của một ma trận quan sát kích thước $p\times N$ , thì phương sai của $y_1$ là lớn nhất có thể theo nghĩa sau: Nếu $\mathbf{u}$ là một vector đơn vị bất kỳ và nếu $y=\mathbf{u}^T\mathbf{X}$ , thì phương sai của các giá trị $y$ khi $\mathbf{X}$ thay đổi trong tập dữ liệu gốc $\mathbf{X}_1,\dots,\mathbf{X}_N$ sẽ bằng $\mathbf{u}^T S\mathbf{u}$ . Theo Định lý 8, giá trị lớn nhất của $\mathbf{u}^T S\mathbf{u}$ trên tất cả các vector đơn vị $\mathbf{u}$ là giá trị riêng lớn nhất $\lambda_1$ của $S$ , và phương sai này đạt được khi $\mathbf{u}$ là vector riêng tương ứng u1u_1. Tương tự, Định lý 8 cho thấy $y_2$ có phương sai lớn nhất có thể trong số tất cả các biến $y=\mathbf{u}^T\mathbf{X}$ mà không tương quan với $y_1$ . Tương tự, $y_3$ có phương sai lớn nhất trong số tất cả các biến không tương quan với cả $y_1$ và $y_2$ , và cứ như vậy.

Ghi chú số học

Phân rã giá trị suy biến (SVD – Singular Value Decomposition) là công cụ chính để thực hiện phân tích thành phần chính (PCA) trong các ứng dụng thực tế. Nếu $B$ là ma trận kích thước $p\times N$ của các quan sát đã được đưa về dạng sai lệch trung bình, và nếu đặt $A=(1/\sqrt{N-1})B^T$ , thì $A^T A$ chính là ma trận hiệp phương sai $S$ . Bình phương của các giá trị suy biến của $A$ là các giá trị riêng của $S$ , và các vector suy biến bên phải của $A$ chính là các thành phần chính của dữ liệu.

Như đã đề cập, việc tính toán phân rã SVD một cách lặp nhanh hơn và chính xác hơn so với phân tích giá trị riêng của $S$ . Điều này đặc biệt đúng, chẳng hạn, trong xử lý ảnh siêu phổ với $p=224$ như đã nêu trong phần giới thiệu. Phân tích thành phần chính được thực hiện chỉ trong vài giây trên các trạm làm việc chuyên dụng.

Các đặc trưng của các biến thành phần chính

Ghi chú số học

Để lại một bình luận Hủy

Chịu trách nhiệm nội dung

Bản quyền

Ý kiến bạn đọc

Bài giảng 36: Giảm số chiều của dữ liệu đa biến

Lesson Attachments

Các đặc trưng của các biến thành phần chính

Ghi chú số học

Để lại một bình luận Hủy