※新組織改編前に作成した記事です

vol13_01

自然言語処理技術を用いて
ネット上のビックデータを解析、市場を把握!

Kazuhiko Tsuda
津田 和彦 教授

 「バカ」 いきなりですが、これがあなたに向けられた言葉なら、あなたはどんな感情を発しますか? 大半の方は“不快”または“怒り”の感情を発すると思います。しかし、「今日は綺麗だよ」と言われた彼女は頬を染めながら「バカ」と言った、という場合の「バカ」はどうでしょう? 自然言語処理や情報検索を専門とする津田和彦教授は、テキストデータから上記のような感情や感性を抽出することに取り組んでいます。抽出した感情等を利用することで市場の声が聞くことができるようになるのです。

 近年、「ビックデータ」という言葉が飛び交っていますが、一番身近なビックデータは言うまでも無くインターネットです。インターネットの発達により、誰でも簡単にさまざまな情報を得られるような社会になっています。さらには、ブログやツイッター,フェイスブックなどのSNSの発達により、誰でも簡単に情報を発信できる社会にもなっています。
 インターネットが発達する以前は、情報発信手段はテレビや新聞などのマスメディアしか持っていませんでした。それゆえ、発信されている情報は正確かつ精査されたものですが、発信される情報は少なく、特定の視点から見た情報でした。今は一般の方々が写真付きでインターネット上に情報を流す時代ですので、多くの視点から見た数多い情報が発信されています。これらの情報を上手く活用すれば、企業にとっても非常に有益な情報を得る事ができます。私の研究は、この手助けを行う技術に関するものです。

vol13_02

 たとえば、ホテル予約する手段としてインターネットが一般的になっています。ネット予約する多くの顧客は、クチコミに記載された内容を参考にして宿泊するホテルを選択しています。しかし、クチコミは顧客だけでなく、ホテル側にとっても改善すべき点を把握する手段として活用できます。指摘された点を改善し、その後のクチコミの状況を見て改善の方向が正解だったかを検証する等、地道にサービスを改善して顧客数を伸ばしているホテルもあります。

 GSSMで担当している科目は、修士課程では「ビジネスと情報」「テキストマイニング」「プログラミング」「アルゴリズム」で、博士課程では「情報検索特論」と「知的ドキュメント管理論」です。

vol13_03

 「ビジネスと情報」では、自然言語処理の基礎と研究事例紹介を行っています。自然言語処理というと多くの人は関係ない技術と思うかもしれませんが、毎日使っている「かな漢字変換」は、自然言語処理から生まれた製品です。その意味では、自然言語処理は最も身近な技術とも言えます。「テキストマイニング」では、実際にテキストデータから情報を抽出して、そこから新たな知見を得るまでの過程を体験してもらう形式で進めています。入学者の全てがテキストマイニングを利用するわけではないので、とにかく一通りのオペレーションを理解してもらう事に注力しています。「プログラミング」では、一度もプログラムを作成したことの無い人を対象に、研究で使うデータから必要な情報をピックアップし、分析し易い形に成型できるようになることを目的に行っています。

vol13_04

 ゼミに在籍している学生は多種多様な業種の方です。私の研究自体が工学系に属しますので電気,機械,通信などは当然ですが、金融,商社,小売業,旅行業のほか、中央官庁や都道府県の公務員の方も居ます。結局、言葉はありとあらゆる所にありますので、業種などは問わないからだと思います。
 学生の持ち込む研究テーマも様々です。それゆえゼミ生の間では「当該業界ではそのような問題意識を持っているのか!」と新たな発見が多くあるようです。一方で、自らが課題と思っていたことが、他業界では既に解決されていたなどの事例もあります。
 最も多い研究テーマは、クチコミなどの一般人が書き込んだ情報から自社・団体が提供する製品やサービスの評判を取得するというものです。評判は「何」と「どうする」という2項関係で成り立っています。例えばホテルにおける「大きい」は、対象が騒音ならネガティブですし、ベッドならポジティブになります。また、「大きくないことはない」という2重否定などもあり、正確に評判を取得するためには多くの課題があります。
 その他、技術資料や日報など職場にある資料を分析する事で、ノウハウなどの暗黙知の形式化や技術伝承に取り組んだりしている方も多くいます。面白い事例としては、通信販売の注文情報から詐欺師の注文を見つけ出す、なんてことも行っています。
 近年は、多くのフリーソフトがありますので、コストをかけずに簡単にテキストマイニングを行うこともできるようなりました。是非挑戦して下さい。

上に戻る