読了 Rによるテキストマイニング入門

Rによるテキストマイニング入門を読了しました。 2019年読了本45冊目。

読み始めの動機

テキストマイニングに興味があり、R言語の勉強会に参加し、Rを完全に理解したため

概要

完全に初心者向け。

RStudio、RMeCabといったテキストマイニングツールのインストール方法から、ifやらforやらといった制御構文までカバーしたチュートリアル。その後、実際に各種テキストデータを分析する事例の紹介。

分析手法はダイジェストでざっくりとした概要のみのため、深い理解には参考図書の読み込みも必要。ただ、とりあえず触ってみて、何かしらの結果がほしいっていう初心者でも、何かしらの成果が得られる点はよいと思います。

感想

タイトルにもあるが、【入門】のため、ひとまずR言語でテキストマイニングをしたことある僕としては、インストールとチュートリアルは知ってる〜って内容だったのでほぼ読み飛ばし。ページ数的に約3割ほど。ちょっともったいなかった。

事例もどっかで見たことあるな・・・と思ってたら、同著者の【新米探偵、データ分析に挑む】という本で紹介されている内容でした。

新米探偵はラノベみたいな感じですが、Rによるテキストマイニング入門とほぼ同じ事例を取り扱うため、読みやすいと感じる方を選ぶとよいです。ただし、Kindleの場合、新米探偵はテキスト検索やハイライトが使えない形式のため、ご注意を。買うなら紙の本がお勧めです。

どうしようもないですが、スクレイピングは3ヶ月もしたら壊れることが多いため、具体的な事例よりもう少し抽象的な内容でもよかったかもしれない。ただ、抽象的だと入門者がついてこれなくなるのでさじ加減が難しい。 また、Twitterのタイムライン分析もあるが、TwitterのAPIも変更が多い印象のため、動くのかな?というのが正直な印象。

現状の僕の理解度だと、かんたんすぎでした。一部知らない分析手法などがあったのですが、ダイジェストでお届けのため、より深い理解のために参考図書を読む必要があります。まあ、新しい概念と参考図書をひとつでも学べただけでもよしとしましょう。

Rでテキストマイニングをはじめてみようって人には間違いなくお勧めの本です。RStudioの操作方法は宇宙本とも呼ばれる、【RユーザのためのRStudio[実践]入門 −tidyverseによるモダンな分析フローの世界−】も併せて読むことをお勧めします。

Rによるテキストマイニング入門