クチコミ分析システムの作り方を読んだ
これはなに
口コミ分析システムの作り方 という本を4章まで読んだのでその感想です。
消費者によって生成されるメディアのことはCGM(Consumer Generated Media)と呼ばれます。本書では、CGMの代表例であるクチコミを分析するシステムを構築する際に留意すべき点や代表的な手法について解説されています。
1章
クチコミ分析の目的について視点別(商品供給者の視点, 消費者の視点, 流通メディアの視点)に分けて書かれています。 それぞれの視点でクチコミ分析のゴールとしたいことについて、よくある例を複数挙げて説明してくれていたので非常にわかりやすかったです。
2章
クチコミ分析システムの要件
クチコミ分析を「クチコミを分析対象としたテキストマイニング」(本書より引用)として定義しています。
2.1節ではクチコミ分析システムで一般的に必要とされる要件について、対処方法と合わせて述べられています。分析対象のデータ量が大きい場合、分析対象のデータが外部システムに依存している場合(例. SNSでのクチコミを分析する場合など)、速報性が要求される場合、くだけた表現が用いられる場合などそれぞれの要件を満たすような事前処理の方法や、収集する際の注意点などが述べられています。
2.2節ではこれらの要件を満たすようなシステムの典型的な構成について述べられています。システムはクチコミの収集、意見の抽出、意見の集積、集約、可視化のブロックに分けられていて、必要となる技術について3章、5章、4章、6章と7章、8章でそれぞれ解説される構成になっていました。
3章
3.1節ではCGMが集まるメディアがどういう媒体であるかという観点で、留意すべき事項が述べられています。メディアを特定のテーマがあるメディア(商品レビューサイト、動画配信サイトなど)とテーマがないメディア(Twitter、Facebookなど)か、対話メディアかモノローグメディアか、特定少数に向けたメディアか不特定多数に向けたメディアかなどの観点でCGMを集めるときの注意点などが詳細に解説されています。
3.2節ではCGMコンテンツをどのように収集するかが記載されています。RSSフィード、API、ウェブクローラーによる方法などが解説されています。
3.3節では収集の障害となるスパム記事や複製記事(キュレーションメディアなどが生成するテキストなど)に対する対処方法について解説されています。
3.4節ではCGMコンテンツの権利処理について書かれています。サイトの利用規約で規定されている場合や規定されてない場合でも著作権法の下でCGMをどのように取り扱うべきかなどについて解説されています。
4章
4章では収集したクチコミをコンピュータで演算可能な構造データに変換する手法について解説されていす。自分としては一番読み対象だったので、詳しく感想を書こうと思います(半分勉強メモみたいになっています)。
4.1節 クチコミが生成されるプロセス
以下の図は本書の図4.1を複製したものです(構成が少し変わっていますが)。著者(消費者と同等とは限らない)は対象物に触れることで内心(センチメント)を発生させます。著者は発生したセンチメントが反映された記事を執筆します。
クチコミ生成のプロセス
4.2節 クチコミ情報の構成要素
センチメント
センチメントは言及している対象が対象か著者の心的状態であるかで評価・感性のセンチメントと感情のセンチメントに分けられ、評価のセンチメントと感性のセンチメントは極性の有無によって分けられるというように本書では分類されています。
センチメントの保持形式について、評価のセンチメントを例にまとめます。評価のセンチメントには対象物に対する価値判断が含まれています。本書では評価のセンチメントは(対象物, 属性, 主観表現, 極性)
のタプルの形式で保持すると良いと書いてあります。
例えば、ECサイトに置いて以下のような口コミがあったとしましょう。
このワイヤレスヘッドホンは音質は良いがバッテリー持ちが少し悪い。
このクチコミには「音質が良い」と「バッテリー持ちが悪い」という2つの評価のセンチメントが含まれています。
このクチコミの評価のセンチメントは以下のようなタプルの形式で保持できます。ここでPはPositive,NはNegativeの頭文字です。
('ワイヤレスヘッドホン', '音質', '良い', 'P'),
('ワイヤレスヘッドホン', 'バッテリー持ち', '少し悪い', 'N')
属性については例えば、
このワイヤレスヘッドホン最高!ずっとこれを使っていきたい。
というクチコミがあったとすると、これは対象物の特定の属性を指しているのではなく対象物全体に関するセンチメントと考えられるので、対象全体という属性を表す属性クラスを導入したりします。
著者
著者情報には性別、年代といったデモグラフィックな情報と趣味嗜好といったサイコグラフィックな情報に分けられます。どの著者情報を保持しておくかはクチコミ分析の目的によって、適宜定めると良さそうに思いました。
記事
記事情報は書誌情報と記事内容に関する情報に分けられます。書誌情報は記事のタイトル、著者、執筆日時などです。記事内容に関する情報は記事に振られたタグや記事本文に含まれる言及対象の情報のことです。 センチメントの情報を得るときにも関連しますが、どの対象について言及しているのかという情報が記事のメタ情報などに含まれていない場合もあります。そのような場合は記事からどの対象について述べているのか(主題と本書では呼ばれています)を記事のタグや記事本文から推定する必要があります。
クチコミ情報要素感の関係情報
著者と対象の関係
著者が対象物とどのように接触したのかという情報は有用です。例えば対象物を商品と考えると、商品を購入したのかどうか(購入有無)や商品をしたのかどうか(使用有無)などは前後でのセンチメントの変化をとらえたりすることができるため重要です。
記事とセンチメントの関係
著者が対象と接触しセンチメントを発生させますが、なぜそのセンチメントが発生したのかという背景情報を詳細に得ることは一般に難しいです。したがって、センチメントがどこで出現したのかという情報も合わせて埋め込んで置き、詳細な背景については分析者に判断を委ねるという方法が良いと本書では書かれています。