logo
Loading...

在文字的特徵擷取中,TF-IDF是什麼? - Cupoy

在NLP領域中,表示一個字或一個詞的方法很多,而TF-IDF是用來表現一個字詞最常見的特徵,特別在文...

在文字的特徵擷取中,TF-IDF是什麼?

2021/11/10 下午 06:13
機器學習共學討論版
王健安
觀看數:74
回答數:1
收藏數:1

在NLP領域中,表示一個字或一個詞的方法很多,而TF-IDF是用來表現一個字詞最常見的特徵,特別在文本分類中常使用。具體來說,TF-IDF的含意是什麼呢?

回答列表

  • 2021/11/10 下午 06:14
    王健安
    贊同數:0
    不贊同數:0
    留言數:0

    TF-IDF是一種針對字或詞的加權數值,當某個字或某個詞彙在某一文本中出現次數多,且出現在其他文本的次數少,代表它是該文本的重點或主要資訊。 TF-IDF包含兩個部分:TF (Text Frequency)以及IDF (Inverse Document Frequency)。 TF用來計算某個字或詞彙在所有文本中出現的次數,公式如下: ![image](http://kwassistfile.cupoy.com/0000017D09572858000000076375706F795F72656C65617365414E53/1635308523397/large) 其中n_(i, j)是指某個文字 i 在某個文本 j 中出現的次數、n_(k, j)則是某個文本 j 所有詞彙的數量。 IDF則是計算「log( 總文件數量 / 包含該詞彙的文件數量 )」,主要目的在於求出某個詞彙在其他文本出現的頻率。 ![image](http://kwassistfile.cupoy.com/0000017D09572858000000076375706F795F72656C65617365414E53/1635308523398/large) 綜上所上,TF-IDF會等於: ![image](http://kwassistfile.cupoy.com/0000017D09572858000000076375706F795F72656C65617365414E53/1635308523399/large) 在python操作方面, 可善用sklearn package中的 TfidfVectorizer實現TF-IDF的計算。 參考資料: - [ ] [NLP] 文字探勘中的 TF-IDF 技術 https://clay-atlas.com/blog/2020/08/01/nlp-%E6%96%87%E5%AD%97%E6%8E%A2%E5%8B%98%E4%B8%AD%E7%9A%84-tf-idf-%E6%8A%80%E8%A1%93/ - [ ] NLP基本方法:TF-IDF原理及應用 https://iter01.com/189491.html - [ ] TensorFlow與NLP(TF-IDF:垃圾簡訊檢測) https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/468440/ - [ ] Introduction to NLP - Part 3: TF-IDF explained https://towardsdatascience.com/introduction-to-nlp-part-3-tf-idf-explained-cedb1fc1f7dc