研究内容

当研究室では、データベースやWeb上にある膨大な文書やマルチメディアデータの中から有用なデータを抽出する情報抽出技術に代表される、知的なデータ処理技術を研究しています。研究全体をまとめた図は以下のようです。このうち幾つかを後で追加説明します。

KDEラボの研究の概要

マルチメディアの情報検索・分類・分割・自動アノテーション付与の研究

三次元物体(幾何形状や位相等)や画像などのマルチメディアを正確に記述するための
「特徴量」の研究、その「特徴量」に基づく、分類、検索(曖昧検索・部分検索)、ならびに分割の研究を行っています。特に三次元の形状類似検索では現在、世界最高レベルの検索性能を達成しています。また、数百万件以上の特許データ(テキストデータ)に代表される大規模データに対するスケーラブルなデータ処理の研究も行っています。2Dの写真やスケッチから3Dモデルを検索する研究も行っています。

三次元形状類似検索の研究事例
↑ 三次元形状類似検索の研究事例

現在は、具体的な応用事例として、3次元CADを利用する機械部品向けの検索技術を開発しています。また、2次元の機械部品の簡便なスケッチから3D機械部品を検索し、その場でWebGLと組合わせて対話的に3Dモデルを検査することも可能です。デモはこちらです。IE11以上、その他、FirefoxやChromeなどで動作します。


映像・画像の検索・分割・自動アノテーション付与の研究

特徴量に関しては、3D以外のメディアである画像やビデオに関しても、抽出・分割・自動アノテーション付与の研究を行っています。画像に関しては、ImageCLEFという画像検索の国際コンテストに2012年から参加しています。また、植物の鑑定に特化した、PlantCLEFという国際コンテストにも2016年から参加しています。幸い2016年は、1000種類の植物鑑定精度でチームとして世界第一位となりました。これらのコンテストで扱うデータ量は年々膨大化しているため、研究室にGPUマシンを徐々に増やし深層学習(deep learning)を利用した研究も始めています。映像に関しては、TRECVIDと呼ばれるビデオ検索の国際コンペのデータを利用して、動きや音声を含むデータの検索や、動きのパターン分類の研究、静止画でも顔画像からの感情推定の研究などに取り組んでいます。

Webマイニング・テキストマイニング・時系列データマイニングの研究

Webは、誰もが利用できる巨大なデータベースですが、貴重なデータがある反面、ごみ情報も多いのが現状です。Webマイニングの研究では、玉石混合のWeb上のデータから有用なデータの発見(コンテンツマイニング)、 リンク構造マイニング、スパムマイニング、コミュニティマイニング、コンテンツ間の相関マイニングなどを行っています。ブログ(RSS)や評判・アティチュード情報などのテキストマイニングの研究も行っています。Webマイニングは、このような背景のもと、Webのリンク関係、コンテンツ、相関関係などの統計的な性質を利用し、主として機械学習手法を適用(あるいは新たに開発)してマイニングする技術です。更に、2015年以降は、(Google Suggestでおなじみの)検索エンジンに必須となってきた検索意図マイニングなどにも取り組んでいます。

最近の研究室の研究事例としては、映画のWebサイトのデータを利用した映画の興行収入の予測の研究, マルチモーダルセンサからの時系列データに基づく温室トマトの収量予測の研究, Webスパム判定の研究、楽天トラベルのレビュー文の評価推定、国会議事録のトピック検出・トピック分割の研究、TwitterがBOTかどうかの判定技術、2チャンネルやニコニコ動画などの投稿サイトでの投稿者のグルーピング(クラスタリング)の研究、ブログデータからの評判情報抽出・可視化技術の研究、Webニュースからの個人の嗜好に合わせたニュース推薦などの研究を行ってきました。