Bài giảng 8: Tính chất của Phép Chiếu Trực Giao

Lesson Attachments

(Nếu công thức chưa load được hoặc mờ, các bạn ấn refresh để công thức hiện và rõ nét hơn nhé!)

Nếu \{\mathbf{u}_1,\dots,\mathbf{u}_p\} là một cơ sở trực giao cho W và nếu \mathbf{y} thuộc W, thì công thức cho \text{proj}_W\mathbf{y} chính là dạng biểu diễn của \mathbf{y} trong định lý 5 ở bài trước. Trong trường hợp này, \text{proj}_W\mathbf{y}=\mathbf{y}.

Nếu \mathbf{y} thuộc W=\text{Span}\{\mathbf{u}_1,\dots,\mathbf{u}_p\}, thì \text{proj}_W\mathbf{y}=\mathbf{y}.

Thực tế này cũng có thể được suy ra từ định lý sau.

Định lý 9 Định lý Xấp Xỉ Tốt Nhất

Cho W là một không gian con của \mathbb{R}^n, \mathbf{y} là một vectơ bất kỳ trong \mathbb{R}^n, và \mathbf{\hat{y}} là phép chiếu trực giao của \mathbf{y} lên W. Khi đó, \mathbf{\hat{y}} là điểm gần nhất trong W với \mathbf{y}, theo nghĩa:

(3)   \begin{equation*}\|\mathbf{y-\hat{y}}\|<\|\mathbf{y-v}\|\end{equation*}


với mọi \mathbf{v}\in W khác \mathbf{\hat{y}}.

Vectơ \mathbf{\hat{y}} trong định lý 9 được gọi là xấp xỉ tốt nhất của \mathbf{y} bởi các phần tử trong W. Các phần sau chúng ta sẽ xem xét các bài toán mà trong đó một vectơ \mathbf{y} cho trước cần được thay thế hoặc xấp xỉ bằng một vectơ \mathbf{v} trong một không gian con cố định W. Khoảng cách từ \mathbf{y} đến \mathbf{v}, được cho bởi \|\mathbf{y-v}\|, có thể được coi là “lỗi” khi sử dụng \mathbf{v} thay cho \mathbf{y}. Định lý 9 khẳng định rằng lỗi này được tối thiểu hóa khi \mathbf{v}=\mathbf{\hat{y}}.

Bất đẳng thức (3) cũng dẫn đến một cách chứng minh mới rằng \mathbf{\hat{y}} không phụ thuộc vào cơ sở trực giao cụ thể được sử dụng để tính toán nó. Nếu sử dụng một cơ sở trực giao khác của W để xây dựng phép chiếu trực giao của \mathbf{y}, thì phép chiếu này vẫn sẽ là điểm gần nhất trong W với \mathbf{y}, tức là vẫn chính là \mathbf{\hat{y}}.

Chứng minh: Lấy \mathbf{v} trong W sao cho \mathbf{v}\neq\mathbf{\hat{y}}. Xem hình 4. Khi đó, \mathbf{\hat{y}}-\mathbf{v} thuộc W. Theo Định lý Phân tích Trực giao, \mathbf{y}-\mathbf{\hat{y}} trực giao với W. Đặc biệt, \mathbf{y}-\mathbf{\hat{y}} trực giao với \mathbf{\hat{y}}-\mathbf{v} (vì \mathbf{\hat{y}}-\mathbf{v} thuộc W). Do đó, ta có:

\mathbf{y-v}=(\mathbf{y-\hat{y}})+(\mathbf{\hat{y}-v})

Áp dụng định lý Pitago, ta thu được:

\|\mathbf{y-v}\|^2=\|\mathbf{y-\hat{y}}\|^2+\|\mathbf{\hat{y}-v}\|^2

(Xem tam giác vuông được đánh dấu trong hình 4. Độ dài của mỗi cạnh được ghi chú.) Vì \|\mathbf{\hat{y}-v}\|^2>0 do \mathbf{\hat{y}-v}\neq 0, suy ra bất đẳng thức (3) đúng.

HÌNH 4: Hình chiếu trực giao của \mathbf{y} lên W là điểm gần nhất trong W với \mathbf{y}.

Ví dụ 3: Nếu \mathbf{u}_1=\begin{bmatrix}2\\5\\-1\end{bmatrix}, \mathbf{u}_2=\begin{bmatrix}-2\\1\\1\end{bmatrix}, \mathbf{y}=\begin{bmatrix}1\\2\\3\end{bmatrix}, và W=\text{Span}\{\mathbf{u_1,u_2}\} như trong ví dụ 2, thì điểm gần nhất trong W với \mathbf{y} là:

\mathbf{\hat{y}}=\frac{\mathbf{y\cdot u_{1}}}{\mathbf{u_{1}\cdot u_{1}}}\mathbf{u_{1}}+\frac{\mathbf{y\cdot u_{2}}}{\mathbf{u_{2}\cdot u_{2}}}\mathbf{u_{2}}=\begin{bmatrix}-2/5\\2\\1/5\end{bmatrix}

Ví dụ 4: Khoảng cách từ một điểm \mathbf{y} trong \mathbb{R}^n đến một không gian con W được định nghĩa là khoảng cách từ \mathbf{y} đến điểm gần nhất trong W. Hãy tìm khoảng cách từ \mathbf{y} đến W=\text{Span}\{\mathbf{u}_1,\mathbf{u}_2\}, trong đó:

\mathbf{y}=\begin{bmatrix}-1\\-5\\10\end{bmatrix},\quad\mathbf{u}_1=\begin{bmatrix}5\\-2\\1\end{bmatrix},\quad\mathbf{u}_2=\begin{bmatrix}1\\2\\-1\end{bmatrix}

Giải: Theo định lý xấp xỉ tốt nhất, khoảng cách từ \mathbf{y} đến W\|\mathbf{y-\hat{y}}\|, trong đó \mathbf{\hat{y}}=\text{proj}_W\mathbf{y}. Vì \{\mathbf{u}_1,\mathbf{u}_2\} là một cơ sở trực giao của W, ta có:

\mathbf{\hat{y}}=\frac{15}{30}\mathbf{u}_1+\frac{-21}{6}\mathbf{u}_2=\frac{1}{2}\begin{bmatrix}5\\-2\\1\end{bmatrix}-\frac{7}{2}\begin{bmatrix}1\\2\\-1\end{bmatrix}=\begin{bmatrix}-1\\-8\\4\end{bmatrix}

\mathbf{y}-\mathbf{\hat{y}}=\begin{bmatrix}-1\\-5\\10\end{bmatrix}-\begin{bmatrix}-1\\-8\\4\end{bmatrix}=\begin{bmatrix}0\\3\\6\end{bmatrix}

\left\|\mathbf{y}-\mathbf{\hat{y}}\right\|^{2}=3^2+6^2=45

Do đó, khoảng cách từ \mathbf{y} đến W\sqrt{45}=3\sqrt{5}.

Định lý cuối cùng trong phần này cho thấy cách công thức \text{proj}_W\mathbf{y} được đơn giản hóa khi cơ sở của W là một tập hợp trực chuẩn.

Định lý 10 Nếu \{\mathbf{u}_1,\dots,\mathbf{u}_p\} là một cơ sở trực chuẩn của một không gian con W trong \mathbb{R}^n, thì

(4)   \begin{equation*}\text{proj}_W\mathbf{y}=(\mathbf{y\cdot u}_1)\mathbf{u}_1+(\mathbf{y\cdot u}_2)\mathbf{u}_2+\dots+(\mathbf{y\cdot u}_p)\mathbf{u}_p\end{equation*}


Nếu đặt U=\begin{bmatrix}\mathbf{u_{1}}&\mathbf{u_{2}}&\cdots&\mathbf{u_{p}}\\\end{bmatrix}, thì

(5)   \begin{equation*}\text{proj}_W\mathbf{y}=U U^T\mathbf{y},\qquad\forall\mathbf{y}\in\mathbb{R}^n\end{equation*}

Chứng minh: Công thức (4) suy ra ngay từ công thức (2) trong định lý 8. Ngoài ra, (4) cho thấy rằng \text{proj}_W\mathbf{y} là một tổ hợp tuyến tính của các cột của U, với các hệ số là \mathbf{y\cdot u}_1,\mathbf{y\cdot u}_2,\dots,\mathbf{y\cdot u}_p. Các hệ số này có thể được viết dưới dạng \mathbf{u}_1^T\mathbf{y},\mathbf{u}_2^T\mathbf{y},\dots,\mathbf{u}_p^T\mathbf{y}, nghĩa là chúng chính là các phần tử trong U^T\mathbf{y}, điều này chứng minh công thức (5).

Giả sử U là một ma trận n\times p với các cột trực chuẩn, và gọi W là không gian cột của U. Khi đó:

U^T U\mathbf{x}=I_p\mathbf{x}=\mathbf{x},\quad\forall\mathbf{x}\in\mathbb{R}^p

U U^T\mathbf{y}=\text{proj}_W\mathbf{y},\quad\forall\mathbf{y}\in\mathbb{R}^n

Nếu U là một ma trận vuông n\times n có các cột trực chuẩn, thì U là một ma trận trực giao, không gian cột W chính là toàn bộ \mathbb{R}^n, và khi đó U U^T\mathbf{y}=I\mathbf{y}=\mathbf{y},\quad\forall\mathbf{y}\in\mathbb{R}^n.

Mặc dù công thức (4) quan trọng về mặt lý thuyết, nhưng trên thực tế, nó thường liên quan đến các phép tính với căn bậc hai của các số (trong các phần tử của \mathbf{u}_i). Do đó, công thức (2) được khuyến nghị sử dụng cho các phép tính bằng tay.

Ví dụ 9 trong phần 2 minh họa cách phép nhân ma trận và phép chuyển vị được sử dụng để nhận diện một mẫu cụ thể, được minh họa bằng các ô vuông màu xanh và trắng. Giờ đây, khi đã có kinh nghiệm làm việc với các cơ sở của WW^\perp, chúng ta sẵn sàng thảo luận về cách thiết lập ma trận M trong Hình 6. Gọi \mathbf{w} là vector được tạo ra từ một mẫu các ô vuông xanh và trắng, trong đó mỗi ô xanh được biểu diễn bằng số 1 và mỗi ô trắng được biểu diễn bằng số 0. Sau đó, các cột được sắp xếp chồng lên nhau, mỗi cột nằm ngay dưới cột trước đó. Xem Hình 5.

HÌNH 5: Tạo một vector từ các ô màu.

Gọi W=\text{span}\{\mathbf{w}\}. Chọn một cơ sở \{\mathbf{v}_1,\mathbf{v}_2,\dots,\mathbf{v}_{n-1}\} cho W^\perp. Tạo ma trận B. Lưu ý rằng B\mathbf{u}=0 nếu và chỉ nếu \mathbf{u} trực giao với một tập hợp các vector cơ sở của W^\perp, điều này xảy ra khi và chỉ khi \mathbf{u} thuộc W. Đặt M=B^T B. Khi đó \mathbf{u}^T M\mathbf{u}=\mathbf{u}^T B^T B\mathbf{u}=(B\mathbf{u})^T(B\mathbf{u}). Theo Định lý 1, (B\mathbf{u})^T(B\mathbf{u})=0 khi và chỉ khi B\mathbf{u}=0, do đó \mathbf{u}^T M\mathbf{u}=0 khi và chỉ khi \mathbf{u}\in W. Nhưng chỉ có hai vector trong W gồm các phần tử là 0 và 1: 1\mathbf{w}=\mathbf{w}0\mathbf{w}=0. Vì vậy, ta có thể kết luận rằng nếu \mathbf{u}^T M\mathbf{u}=0 nhưng \mathbf{u}^T\mathbf{u}\neq 0, thì \mathbf{u}=\mathbf{w}. Xem hình 6.

Ví dụ 5: Tìm một ma trận M có thể được sử dụng trong Hình 6 để nhận diện ký hiệu trực giao \perp.

giải: Trước tiên, chuyển ký hiệu thành một vector. Đặt \mathbf{w}=\begin{bmatrix}0&0&1&1&1&1&0&0&1\end{bmatrix}^T. Tiếp theo, đặt W=\text{span}\{\mathbf{w}\} và tìm một cơ sở cho W^\perp. Giải phương trình \mathbf{x}^T\mathbf{w}=0 dẫn đến hệ phương trình thuần nhất:

x_3+x_4+x_5+x_6+x_9=0

Xem x_3 là biến cơ bản và các biến còn lại là biến tự do, ta có một cơ sở cho W^\perp. Chuyển vị mỗi vector trong cơ sở và đặt chúng làm các hàng của B, ta được

Mẫu này không phải là ký hiệu vuông góc vì \mathbf{w}^T M\mathbf{w}\neq 0.

Mẫu này là ký hiệu vuông góc vì \mathbf{w}^T M\mathbf{w}=0, nhưng \mathbf{w}^T\mathbf{w}\neq 0.

HÌNH 6: Cách AI nhận diện ký hiệu vuông góc.

B=\begin{bmatrix}1&0&0&0&0&0&0&0&0\\0&1&0&0&0&0&0&0&0\\0&0&-1&1&0&0&0&0&0\\0&0&-1&0&1&0&0&0&0\\0&0&-1&0&0&1&0&0&0\\0&0&0&0&0&0&1&0&0\\0&0&0&0&0&0&0&1&0\\0&0&-1&0&0&0&0&0&1\\\end{bmatrix},\qquad M=B^{T}B=\begin{bmatrix}1&0&0&0&0&0&0&0&0\\0&1&0&0&0&0&0&0&0\\0&0&4&-1&-1&-1&0&0&-1\\0&0&-1&1&0&0&0&0&0\\0&0&-1&0&1&0&0&0&0\\0&0&-1&0&0&1&0&0&0\\0&0&0&0&0&0&1&0&0\\0&0&0&0&0&0&0&1&0\\0&0&-1&0&0&0&0&0&1\\\end{bmatrix}

Lưu ý rằng \mathbf{w}^T M\mathbf{w}=0, nhưng \mathbf{w}^T\mathbf{w}\neq 0.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Hotline: 039.2266.928
Khóa học Toefl
Phone now