イ)実空間における災害等のイベント抽出およびユーザ動向推定に関する研究

【平成25年度開発目標と成果】

A) ユーザ位置抽出精度の調査

[研究開発実績] トピックとなるイベント抽出を実現するため、対象となるWebコンテンツの調査、取得を実施した。また、鮮度の高いイベント抽出として、速報性の高いSNSコンテンツも取得し、WebコンテンツとSNSコンテンツとの相関性をイベントとなる場所を尺度として検証した。具体的には、取得したWebコンテンツに対して、形態素解析、tf・idf法を用いた特徴語抽出を実施し、イベント抽出に必要な要素を検出した。また、Webコンテンツに対する場所名から緯度経度も取得した。さらにSNSとして最も普及しているTwitterデータの位置情報付きストリーミングデータを日本を領域として平成25年8月より取得し、緯度経度および特徴語に基づき、イベントとの相関性を算出した。実験では、イベントの場所とツイートデータとの適合率、再現率、F値を検証した。図1に例として、東京スカイツリー、東京駅、羽田空港、TDLに関するWebコンテンツとツイートデータとの検証結果を示す。横軸はツイートの解析範囲を示す。実験より良好な結果を得られた。良好な結果が得られたことにより、ユーザがイベント情報を閲覧しているページに関連するツイートを発信したユーザとのリアルタイムコミュニケーションも実現した。図1(左)に開発したプラグインを用いて、東京スカイツリーのWebコンテンツを閲覧中に速報となる関連ツイート(左ウィンドウ)を提示した結果を示す。

 

distance target relationship graph

図1:Webコンテンツとツイートの内容に対する適合率、再現率、F値


B) イベント抽出精度の調査

 [研究開発実績] ユーザ要求およびコンテキスト推定を実現するため、初年度は実空間における人の混雑推定手法を提案、実装し、既存のソーシャルネットワークサービスに対する検証を実施した。具体的には、まず、SNSとして最も普及しているTwitterデータの位置情報付きストリーミングデータを日本を領域として平成25年8月より取得管理、米国を領域として平成25年9月より取得管理し、実空間に時間経過に沿ってマッピングする機能を実装した。次に、実空間の交差点をノード、交差点をつなぐ道路をエッジとする双方向グラフを作成し、グラフで囲まれた領域に存在するツイート数の割合に基づき、各ノード(交差点)の混雑具合を算出した。最後に、ノードから出ているエッジ(道路)数で割った値を各エッジの重みとすることで、人の流れとなる遷移確率行列を作成し、交差点の混雑予測値を算出した。図2(右)に、算出した混雑予測値を基にダイクストラ法で混雑していないルートを提示するシステムの結果画面を示す。ピンが任意の時間におけるツイートをマッピングしたもので、円が混雑予測具合を表しており、赤いルートが混雑が少ないと予想されるルートを示している。ピンをクリックするとツイート記事を閲覧できる。

 

event extraction
図2:(左)Webコンテンツと関連する鮮度の高いツイート提示結果画面
(右)コンテキスト(場所と時間)に沿ったユーザ移動状況推定


C) ユーザ興味抽出手法の開発

[研究開発実績] 将来に渡るユーザ位置推定を実現するため、ユーザの閲覧操作履歴ログより抽出した時刻と場所に基づき、1)最尤法による存在確率算出、2)ユーザの嗜好性ならびに習慣性に基づく欠損データに対する場所推定、3)群集性に基づく欠損データに対する場所推定の3手法を提案し、実装した。具体的には、まず、ユーザが日本国内の主要交通案内サイトを操作閲覧したURIを取得し、駅名(場所)と時刻を抽出する。次に、最尤法を用いて場所と時刻における存在確率を算出し、任意の時刻において閾値以上の場所をユーザの位置として検出する。また、ユーザが興味ある場合や過去に訪問している場合は操作閲覧をしないと考えられ、データが欠損してしまう。そこで、ユーザの嗜好性と習慣性を用いたデータ補完ならびに他ユーザとのそれら(嗜好性と習慣性)の類似性を用いたデータ補完を検討した。


【平成26年度開発目標と成果】

D) ユーザとトピックの関連抽出

[研究開発実績] 特定の感情を有するWebページから抽出される補間語を用いて再検索することにより、話題に対する発信者の感情を網羅するようなWebページを抽出し、3次元の感情マップ上にマッピングして感情分布を可視化するシステムを開発した。特定の話題に関する検索結果の有用な感情分布を網羅するWebページ検索のために提案手法の方が従来手法(既存検索エンジン)より効果的であると検証できた(図3 (1))。また、特定の話題に対するニュース記事とツイートの感情分布を可視化し、マスメディアとソーシャルメディアの間に生じる感情の相違を提示する感情俯瞰グラフを生成した。特定の話題の流行ピーク期間におけるニュース記事とツイートを取得して感情値の相違を分析できた(図3 (1), (2))。

topic extraction
図3: 話題に対する発信者の感情分析  


E) リアルタイムなイベント相関性抽出技術の開発

[研究開発実績] 国内ならびに米国の約数億の位置情報付きツイートデータ(約1年分)に対して、信頼性の高い位置情報に基づき、曖昧性の高い内容から信頼性の高い時空間情報の抽出を実現し、未来と過去のイベントの相関性分析機能を開発した(図4 (1)、図4 (2))。図4 (1)の時空間分析では、ツイートユーザの多くはたった今(5分以内)のできごとをツイートしているだけでなく、明日(未来)と昨日(過去)の1日前後に関してもツイートしていることが明らかとなった。また、本研究開発で重要となるイベント抽出では、2013年9月4日に2年以降のイベントとして「東京オリンピック」が抽出できた。さらに、場所間の関係性としてツイートユーザが現在位置と異なる場所に関してツイートしている割合を都道府県ごとに分析した(図4 (2))。セルを選択すると話題語とツイート情報を確認可能で、特に頻度の高いセルではスポーツ等のイベントを発見できた。さらに同じツイートデータを対象に特に空間の相関に着目した相関性分析機能も開発した(図4 (3), (4))。

visualization system

図4: イベント相関性抽出用可視化システム


F) 情報推薦・可視化機能の開発

これまでに,我々はGoogle検索手法として提案されていたPageRank手法を拡張し,ページ間の関係だけでなくユーザのトピック検索行動にも基づいて計算されるPURankと呼ぶランキングモデルを開発してきた.今回,PURankのスコア値を用いることで,ユーザの関心トピックに基づくWebページ並びに関連ユーザの情報推薦を行うシステムを開発した(図5).具体的には,1) まず関心トピックに対応するクエリqに対して,ページpのスコア値を以下の式で計算する.

S_p(q)

ここで,rpはページpのPURankのスコア値を表し,tfidfp(q)はページpのクエリqに対するtf-idf値を表す.2) 次に,関心トピックに対応するクエリqに対して,ユーザuのスコア値を以下の式で計算する.

S_u(q)
S_u(q,p)
    

ここで,ruはユーザuのPURankのスコア値を表し,su(q,p)はユーザuのページpにおけるクエリqに対するスコア値を,f()は減衰関数を,tu(p)はユーザuのページpの閲覧時間を表している.すなわち,閲覧時間がsu(q)の計算時間(クエリ送信時刻)に近いほどf()は大きな値となりスコア値の寄与率が高くなる.これにより,sp(q)の値が大きいページpを関連が高いWebページとして推薦し,su(q)の値が大きいユーザuを関連が高いユーザとして同様に推薦することが可能となる.以上により,ユーザのトピック検索行動に基づく関連ユーザの情報推薦が可能となった.

page and user recommendation

図5: トピック検索行動の基づき関連ページと関連ユーザ情報を推薦


さらにA) で開発した関連ユーザの情報推薦手法に基づいた情報伝達システムを開発することで,検索トピックに基づく関連Webページ並びに関連ユーザを表示し,当該Webページ又は当該ユーザのアクセスしているWebページにジャンプし,更に当該ページを中心とした情報伝達が可能となった(図6).具体的には,A) において,sp(q)の値が大きいページpを関連が高いWebページとして可視化し,su(q)の値が大きいユーザuを関連が高いユーザとして同様に可視化する.更に,可視化されたユーザ同士が関連トピックに基づいてページを介した情報伝達を行う.その際,同一のページにアクセスしておらずとも,関連ページにアクセスしているユーザ間で情報伝達が可能である.開発システムを使用することで,実空間の特性である同じ場所にいる者同士がコミュニケーションするという特性をサイバー空間に自然な形で導入することができ,それにより新たな情報伝達が可能となっている.特に,災害発生時の情報伝達手段として,同一のトピックに関心を持つユーザ間の情報伝達が容易であり,物理的には離れていても関心トピック的には近いユーザを可視化することで,互いに連携して協調作業に従事することが可能となる.

page centered communication

図6: トピック関連ユーザの可視化とページ中心の情報伝達