潛在語義分析(英文:latent semantic analysis,LSA)係自然語言處理上成日用嘅一種分析方法。
LSA 步驟大致如下[1]:
- 計個矩陣出嚟-
- 矩陣每條橫行表示一隻字詞;
- 矩陣每條直行表示一份文件或者一句句子;
- 矩陣每一格反映嗰隻字詞喺嗰份文件或者句子當中有幾「重要」(睇埋 tf-idf);
跟住段演算法就會(例如)做降維-攞住個矩陣,嘗試搵個新矩陣出嚟,而個新矩陣橫行數量少咗,但同時維持住直行之間嘅相似度分佈,打後得出嗰個(維數少嘅)矩陣就最代表到啲文件嘅意思,最後段演算法就用維數少嗰個矩陣比較啲文件喺意思上嘅相似度。
睇埋
攷