3.プロセスの確認

今日は目標達成のためのプロセスの確認をする。

 

大目標は何だったかというと、あれだ。

 

各大学のミスコングランプリを、twitterを使った形態素解析で予想しよう!ってやつだった。

Rだと何となくイメージつくんだけど、python分からな過ぎて混乱しそうなので備忘録的な回。

 

大まかな流れとしては

 

  1. Tweepyインストール←done
  2. ミスコン出場者の名前で絞り、その名前の含まれるツイートを収集
  3. MeCabインストー
  4. 収集したツイートをMeCabで切る
  5. それぞれの単語に対し、単語感情極性対応表からベクトル値を算出
  6. スコアの高かった人の勝ち!!

 

という流れかな。

 

必要なのはまずMeCabと単語感情極性対応表だけど、numpyも必要なのか?

 

numpyとRは似てるって聞いてからなにかとnumpyを使おうとしがちなんだけど、如何せんまだ何も把握していないので、使う場面はよもや使い方すら分からないから調べないとな。

 

細かいベクトル値とか条件、制約に関しては追々決めるとして、単語に対するベクトル値の紐付けとか、そもそも収集したツイートをどうMeCabで切るのか、そしてどう単語感情極性対応表と結び付けるかも決めとかないと。

 

データフレームみたいなのになれれば楽なんだけど、それはR的な考え方で、そもそもpythonだとデータフレームに格納しなくてもそんなの勝手にやってくれちゃうような何かがあるのか、それを調べなきゃいけないな、うん。

 

まずはMeCabpythonでの切り方を調べて、それぞれの単語ごとのまとめかたとかを確認するか。(前途多難)