Bài giảng 33: Ứng dụng PCA (SVD) trong Xử Lý Ảnh và Thống Kê

Lesson Attachments

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Các bức ảnh vệ tinh ở phần mở đầu của chương này là một ví dụ về dữ liệu đa chiều, hay còn gọi là dữ liệu đa biến – thông tin được tổ chức sao cho mỗi dữ liệu trong tập dữ liệu được gắn với một điểm (vector) trong không gian \mathbb{R}^n. Mục tiêu chính của phần này là giải thích một kỹ thuật gọi là phân tích thành phần chính (principal component analysis – PCA), được sử dụng để phân tích dữ liệu đa biến như vậy. Các phép tính sẽ minh họa việc sử dụng đường chéo hóa trực giao (orthogonal diagonalization) và phân tích giá trị suy biến (singular value decomposition – SVD).

Phân tích thành phần chính có thể được áp dụng cho bất kỳ tập dữ liệu nào bao gồm danh sách các phép đo được thực hiện trên một tập hợp các đối tượng hoặc cá nhân. Ví dụ, hãy xét một quy trình hóa học tạo ra vật liệu nhựa. Để giám sát quy trình này, 300 mẫu vật liệu được lấy và mỗi mẫu được kiểm tra qua tám phép thử khác nhau, chẳng hạn như điểm nóng chảy, mật độ, độ dẻo, độ bền kéo, v.v… Báo cáo trong phòng thí nghiệm cho mỗi mẫu là một vector trong \mathbb{R}^8,, và tập hợp các vector đó tạo thành một ma trận kích thước 8\times 300, gọi là ma trận quan sát (matrix of observations).

Nói một cách đơn giản, chúng ta có thể xem dữ liệu kiểm soát quy trình này là dữ liệu trong không gian tám chiều. Hai ví dụ tiếp theo sẽ mô tả các loại dữ liệu có thể được hình dung bằng đồ họa.

Ví dụ 1: Một ví dụ về dữ liệu hai chiều được đưa ra bởi một tập hợp các giá trị cân nặng và chiều cao của N sinh viên đại học. Gọi \mathbf{X}_j là vectơ quan sát trong \mathbb{R}^2 liệt kê cân nặng và chiều cao của sinh viên thứ j. Nếu w biểu thị cân nặng và h biểu thị chiều cao, thì ma trận quan sát có dạng:

\begin{bmatrix}w_1&w_2&\cdots&w_N\\h_1&h_2&\cdots&h_N\end{bmatrix}=[\mathbf{X}_1\;\mathbf{X}_2\;\cdots\;\mathbf{X}_N]

Tập hợp các vectơ quan sát có thể được hình dung bằng một biểu đồ phân tán hai chiều. Xem hình 1.

HÌNH 1 Một biểu đồ phân tán của các vectơ quan sát \mathbf{X}_1,\ldots,\mathbf{X}_N.

Ví dụ 2: Ba bức ảnh đầu tiên của vùng Railroad Valley, Nevada, được trình bày ở phần giới thiệu chương, có thể được xem như một hình ảnh duy nhất của khu vực này với ba thành phần phổ, vì các phép đo được thực hiện đồng thời ở ba bước sóng khác nhau. Mỗi bức ảnh cung cấp thông tin khác nhau về cùng một khu vực địa lý. Ví dụ, điểm ảnh đầu tiên ở góc trên bên trái của mỗi bức ảnh tương ứng với cùng một vị trí trên mặt đất (khoảng 30 mét x 30 mét). Mỗi điểm ảnh như vậy tương ứng với một vectơ quan sát trong \mathbb{R}^3, liệt kê cường độ tín hiệu của điểm ảnh đó ở ba dải phổ khác nhau.

Thông thường, hình ảnh có kích thước 2000 × 2000 điểm ảnh, tức là có tổng cộng 4 triệu điểm ảnh. Dữ liệu của hình ảnh này tạo thành một ma trận với 3 hàng và 4 triệu cột (các cột được sắp xếp theo bất kỳ thứ tự thuận tiện nào). Trong trường hợp này, tính “đa chiều” của dữ liệu đề cập đến ba chiều phổ, chứ không phải hai chiều không gian vốn dĩ thuộc về bất kỳ bức ảnh nào. Dữ liệu này có thể được hình dung như một cụm gồm 4 triệu điểm trong không gian \mathbb{R}^3, như minh họa trong hình 2.

Hình 2: Biểu đồ phân tán của dữ liệu phổ cho một ảnh vệ tinh

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Hotline: 039.2266.928
Khóa học Toefl
Phone now