ページの先頭です。
本文へジャンプする。

本ウェブサイトでは、JavaScriptおよびスタイルシートを使用しております。
お客さまがご使用のブラウザではスタイルが未適応のため、本来とは異なった表示になっておりますが、情報は問題なくご利用いただけます。

ここからサイト内共通メニューです。
サイト内共通メニューを読み飛ばす。
サイト内共通メニューここまで。
サイト内の現在位置を表示しています。
ホーム > ニュース > プレスリリース > 文章データから個人の意見を抽出する技術を開発

文章データから個人の意見を抽出する技術を開発 ~話題の連続性を考慮した複数文での判定で網羅性を向上~

2009年4月14日
日本電気株式会社

NECはこのたび、ブログやアンケートなど、企業のブランドや商品などに対する人々の評判情報などを含む文章を分析するための技術として、個人の主観や感情を表す「意見文」や、特定の話題に関連した「トピック関連文」を、文章全体の中から抽出する際の網羅性を向上できる「文特性分布計算方式」を開発しました。

今回開発した方式は、意見文やトピック関連文にあてはまるかどうかを判定するため、話題の連続性に着目し、前後の複数の文における“意見文らしさ”または“関連文らしさ”を計算する方式です。
これにより、単文で判定する従来方式に比べ、網羅性を示す指標である再現率(注1)を21%向上し、対象となる文章中からより多くの意見文や関連文を的確に抽出できるようになります。

本方式は、例えば、インターネット上のブログ、電子掲示板、アンケートデータ、コールセンターにおける問い合わせの記録などから、ある出来事、商品、サービスなど様々な事柄に関して、人々の考え、賛否の割合、評価ポイントなどを抽出し、企業のマーケティングに活用できるものです。

このたび開発した「文特性分布計算方式」の特長は、以下の通りです。

1.複数の文をまとめて意見文らしさ・関連文らしさの得点を計算

一般に同じ話題は連続して書かれる傾向がある、という点に着目。文章内の連続する文の集合(文集合)に対し、いくつの意見文が含まれるかを機械学習技術(注2)で学習することで、文集合の意見文らしさ、関連文らしさを評価するルールを抽出。このルールを評価したい文集合に適用して得点を計算。

2.文特性分布に基づく意見文・関連文判定

1.の方法で、文章内のすべての文集合について得点を計算し、文章全体での意見文らしさ、関連文らしさの分布(文特性分布)を算出。この文特性分布において、判定精度を示す一定のしきい値を超えた文を意見文、関連文として判定。

近年、インターネットの普及によって、人々が様々な情報を発信するようになっています。これらの情報には、ニュース、商品、サービスに関する意見・感想も多く含まれており、企業にとって、市場調査、商品/サービス改善のための有用な情報として注目されています。「よい」、「悪い」、「高い」、「安い」などの評価表現とその評価対象を特定することで、ブログなどのCGM(注3)情報から評判情報を抽出するこれまでの技術では、主語が省略されているような短い文や、評価表現の記述場所が評価対象と離れているような複雑な文において、評判情報(意見文)を取得できない場合があり、より網羅性の高い技術が求められていました。

NECでは、これまでに、「評価対象のどういった点が、どのように良いか/悪いか」を取り出すことができる評判抽出技術を開発しています。この技術と今回開発した技術を組み合わせることにより、ブログ、電子掲示板などのCGM情報、アンケートデータ、コールセンターにおける問合せの記録などから、より多くの世の中の意見や顧客の要望を把握することが可能となります。

NECは、これら技術を、今後の新しい検索サービス、マーケティングのための分析サービスおよびCRMソリューションなどに活用できると考えており、今後さらに適用領域拡大を目指して研究開発を強化してまいります。

以上

注1:再現率

本来抽出すべき文のうち、実際に抽出できた文の割合。文特性分布計算方式により、意見文抽出において再現率52%から73%に向上(F値:57.21%から58.83%)。関連文抽出において再現率18%から63%に向上(F値:26.94%から54.81%)。当社調べ(大学共同利用機関法人 情報・システム研究機構 国立情報学研究所主催のワークショップNTCIR-7にて訓練用に提供された、多言語意見分析タスク参加者用テストコレクション、日本語データセットを対象)。
※F値:再現率と適合率(抽出データ中に含まれる正解の割合)の調和平均で、値が大きいほど有用とされる指標。

注2:機械学習技術

事例データ集合を解析することで、分類規則や判定基準などを抽出する技術。

注3:CGM(Consumer Generated Media)

インターネットなどを通じて消費者が、直接、情報発信可能なメディア。ブログや、ソーシャルネットワーキングサービスなど。

本件に関するお客様からの問い合わせ先

NEC 知的資産R&D企画本部 広報グループ
URL: 新しいウィンドウを開きます。http://www.nec.co.jp/contact/

このページに掲載されているプレスリリースその他の情報は、発表日現在の情報であり、時間の経過または様々な後発事象によって変更される可能性がありますので、あらかじめご了承ください。

ページの先頭へ戻る

Copyright NEC Corporation. All rights reserved.