運営者情報

運営してるひと: @sters9

       

妻と猫と横浜あたりに住んでいる。最近は Go や Kubernetes や GCP をしています。 PHP や JavaScript もすこし。

プライバシーポリシー

tools.gomiba.co

アーカイブ

2021/02 (12) 2021/01 (8)

2020/05 (2) 2020/04 (2) 2020/02 (2) 2020/01 (1)

2019/12 (3) 2019/11 (2) 2019/10 (5) 2019/09 (3) 2019/07 (6) 2019/06 (4) 2019/04 (3) 2019/01 (2)

2018/12 (6) 2018/10 (4) 2018/09 (6) 2018/08 (7) 2018/07 (16) 2018/06 (7) 2018/05 (7) 2018/04 (5) 2018/03 (3) 2018/02 (10) 2018/01 (6)

2017/12 (8) 2017/11 (6) 2017/10 (10) 2017/09 (12) 2017/08 (12) 2017/07 (3) 2017/06 (1) 2017/01 (4)

2016/12 (5) 2016/10 (3) 2016/09 (1) 2016/07 (2) 2016/06 (1) 2016/04 (1) 2016/02 (1) 2016/01 (2)

2015/12 (1) 2015/10 (1) 2015/09 (3) 2015/06 (1) 2015/01 (1)

2014/08 (2) 2014/07 (3) 2014/05 (1) 2014/01 (7)

2013/12 (2) 2013/11 (4) 2013/10 (1) 2013/09 (1) 2013/08 (3) 2013/07 (4) 2013/06 (5) 2013/05 (2) 2013/04 (7) 2013/03 (1)

TF-IDF ってのを使うと単語の重要度がわかるよって聞いたので調べた

この記事は公開されてから1年以上経過しており、情報が古くなっている可能性があります。

TF-IDF は文章における、単語の重みづけを行うもの。 処理した文章中のうち、ある単語はどの程度重要なものか、出現度合いから重み付けを計算する。 プログラム、機械からは文章の分析っていってもよくわからないので、そのよくわからない特徴をわかるようにするための、数値化する方法の1つ。

前提として TF-IDF には複数の文章を入力する必要がある。

TF-IDF = TF * IDF

TF = 1つの文章において、ある単語の出現回数 / 文章内の単語数 → 文章1つずつの単語の出現頻度がわかる。

IDF = log( 文章数 / ある単語が出現する文章数 ) + 1 → 横断的に使われる単語は低い値になる。

簡単な文章を入れつつ実際の数字を計算してみる。

  step1:文章の入力

文章
リンゴとレモンとレモン
リンゴとミカン

  step2:単語に分割(ここでは形態素解析し、名詞だけに絞ったとする)

文章分割した結果
リンゴとレモンとレモンリンゴ レモン レモン
リンゴとミカンリンゴ ミカン

  step3:TF値、IDF値を計算する

文章TF:リンゴTF:レモンTF:ミカン
リンゴとレモンとレモン1 / 3 = 0.332 / 3 = 0.670 / 3 = 0
リンゴとミカン1 / 2 = 0.50 / 2 = 01 / 2 = 0.5
単語IDF
リンゴlog(2 / 2) + 1 = 1
レモンlog(2 / 1) + 1 = 1.3
ミカンlog(2 / 1) + 1 = 1.3

  step4:TF-IDFを計算する

文章TF-IDF:リンゴTF-IDF:レモンTF-IDF:ミカン
リンゴとレモンとレモン0.33 * 1 = 0.330.67 * 1.3 = 0.870 * 1.3 = 0
リンゴとミカン0.5 * 1 = 0.50 * 1.3 = 00.5 * 1.3 = 0.65

 

この結果からわかることとして。

  • 「リンゴ」は横断的に出現するので値が低くなる。
  • 「レモン」は文章1だけに多く使われるので値に特徴が強く出る。
  • 「ミカン」は文章2だけに使われているが、リンゴと同程度しか使われていないので、特徴が大きく出るわけではない。
  • この2つの文章を切り分けるには レモン の様子を見ればよいらしい。ということで、確かに単語の重要度がわかるよ、っていうのはあっているらしい。

ただ、全ての文章・全ての単語を利用するという計算ロジックの都合、文章を逐次増やして差分計算していくー、というのは出来なさそうなので、そういう用途はむりそうだなー。 例えばこの計算済み TF-IDF の結果に加えて「バナナとレモン」を追加したときに困っちゃうね、という話。この量なら良いけど、もっと文章量が増えてもっと単語量が増えると、毎回計算し直すコストがかかる。