顧客データや購買履歴などビッグデータの分析はあらゆる分野で注目を集めています.インターネット上の集合知を形成する上でも大規模データ分析は必須の技術となっていますが,その実現には様々なアプローチが存在しています.本研究では,京都産業大学河合研究室で研究を進めている「Webページ間およびWeb閲覧者間のネットワークにおけるリアルタイムランキング」というアプリケーションに注目し,既存の大規模分散処理ミドルウェアについて性能を比較し,その利用方法について調査を進めています(図1参照).現在は,従来からHPC (High
Performance Computing) の分野で利用されてきた並列計算ミドルウェア(MPI, OpenMP, OpenCL
等を用いたミドルウェア)と,大規模データ処理用に登場したMapReduceフレームワークによるバッチ処理ミドルウェア(Hadoop等)について,
ランキング計算を行う上での性能,機能比較を進めています.以前は大きく違っていた2つの技術ですが,HPCにおける大規模データ処理の必要性,大規模データ処理分野における高速計算の必要性から,互いに共通する要求が増えてきています.これらの技術の理解を深めることで,さらに効果的に技術間の連携が
実現できる可能性があります. 図1: 提案しているソーシャルサーチシステムの構成 |