Bài giảng 36: Giảm số chiều của dữ liệu đa biến

Lesson Attachments

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Phân tích thành phần chính (Principal Component Analysis – PCA) đặc biệt hữu ích trong các ứng dụng mà phần lớn sự biến thiên, hoặc phạm vi động, trong dữ liệu là do sự thay đổi của chỉ một vài biến mới, y_1,\ldots,y_p.

Người ta có thể chứng minh rằng một phép biến đổi biến bằng ma trận trực giao \mathbf{X}=P\mathbf{Y} không làm thay đổi tổng phương sai của dữ liệu. (Hiểu một cách đơn giản, điều này đúng bởi vì phép nhân trái với ma trận trực giao P không làm thay đổi độ dài của các vector hay góc giữa chúng.) Do đó, nếu S=P D P^T, thì:

Tổng phương sai =\text{tr}(D)=\lambda_1+\cdots+\lambda_p

Trong đó:

  • \lambda_j là phương sai của biến y_jj,
  • Tỷ lệ \lambda_j/\text{tr}(S) cho biết phần trăm tổng phương sai được “giải thích” hoặc “nắm bắt” bởi biến y_j.

Ví dụ 5: Tính các tỷ lệ phần trăm phương sai của dữ liệu ảnh đa phổ Railroad Valley được thể hiện trong các ảnh thành phần chính, (d)–(f), như đã hiển thị trong phần giới thiệu của phần 7.

Giải: Tổng phương sai của dữ liệu là

=\text{tr}(D)=7614.23+427.63+98.10=8139.96

[Hãy kiểm tra rằng con số này cũng bằng \text{tr}(S).] Tỷ lệ phần trăm của tổng phương sai được giải thích bởi các thành phần chính là:

  • Thành phần thứ nhất
    \dfrac{7614.23}{8139.96}\approx 93.5\%
  • Thành phần thứ hai
    \dfrac{427.63}{8139.96}\approx 5.3\%
  • Thành phần thứ ba
    \dfrac{98.10}{8139.96}\approx 1.2\%

Theo một nghĩa nào đó, 93.5% thông tin thu thập được bởi Landsat về vùng Railroad Valley được thể hiện trong bức ảnh (d), với 5.3% trong (e), và chỉ còn 1.2% nằm trong (f).

Các phép tính trong ví dụ 5 cho thấy rằng dữ liệu gần như không có phương sai trong tọa độ (mới) thứ ba. Các giá trị của y_3 đều gần bằng 0. Về mặt hình học, các điểm dữ liệu gần như nằm trên mặt phẳng y_3=0, và vị trí của chúng có thể được xác định khá chính xác chỉ bằng các giá trị của y_1y_2. Thực tế, y_2 cũng có phương sai tương đối nhỏ, điều này có nghĩa là các điểm gần như nằm dọc theo một đường thẳng, và dữ liệu về bản chất là một chiều.

Các đặc trưng của các biến thành phần chính

Nếu các biến y_1,\dots,y_p xuất phát từ phân tích thành phần chính của một ma trận quan sát kích thước p\times N, thì phương sai của y_1 là lớn nhất có thể theo nghĩa sau: Nếu \mathbf{u} là một vector đơn vị bất kỳ và nếu y=\mathbf{u}^T\mathbf{X}, thì phương sai của các giá trị y khi \mathbf{X} thay đổi trong tập dữ liệu gốc \mathbf{X}_1,\dots,\mathbf{X}_N sẽ bằng \mathbf{u}^T S\mathbf{u}. Theo Định lý 8, giá trị lớn nhất của \mathbf{u}^T S\mathbf{u} trên tất cả các vector đơn vị \mathbf{u} là giá trị riêng lớn nhất \lambda_1 của S, và phương sai này đạt được khi \mathbf{u} là vector riêng tương ứng u1u_1. Tương tự, Định lý 8 cho thấy y_2 có phương sai lớn nhất có thể trong số tất cả các biến y=\mathbf{u}^T\mathbf{X} mà không tương quan với y_1. Tương tự, y_3 có phương sai lớn nhất trong số tất cả các biến không tương quan với cả y_1y_2, và cứ như vậy.

Ghi chú số học

Phân rã giá trị suy biến (SVD – Singular Value Decomposition) là công cụ chính để thực hiện phân tích thành phần chính (PCA) trong các ứng dụng thực tế. Nếu B là ma trận kích thước p\times N của các quan sát đã được đưa về dạng sai lệch trung bình, và nếu đặt A=(1/\sqrt{N-1})B^T, thì A^T A chính là ma trận hiệp phương sai S. Bình phương của các giá trị suy biến của A là các giá trị riêng của S, và các vector suy biến bên phải của A chính là các thành phần chính của dữ liệu.

Như đã đề cập, việc tính toán phân rã SVD một cách lặp nhanh hơn và chính xác hơn so với phân tích giá trị riêng của S. Điều này đặc biệt đúng, chẳng hạn, trong xử lý ảnh siêu phổ với p=224 như đã nêu trong phần giới thiệu. Phân tích thành phần chính được thực hiện chỉ trong vài giây trên các trạm làm việc chuyên dụng.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Hotline: 039.2266.928
Khóa học Toefl
Phone now