潛在語義分析

潛在語義分析（英文：latent semantic analysis，LSA）係自然語言處理上成日用嘅一種分析方法。

LSA 步驟大致如下^[1]：

計個矩陣出嚟－
- 矩陣每條橫行表示一隻字詞；
- 矩陣每條直行表示一份文件或者一句句子；
- 矩陣每一格反映嗰隻字詞喺嗰份文件或者句子當中有幾「重要」（睇埋 tf-idf）；

跟住段演算法就會（例如）做降維－攞住個矩陣，嘗試搵個新矩陣出嚟，而個新矩陣橫行數量少咗，但同時維持住直行之間嘅相似度分佈，打後得出嗰個（維數少嘅）矩陣就最代表到啲文件嘅意思，最後段演算法就用維數少嗰個矩陣比較啲文件喺意思上嘅相似度。

睇埋