Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（４）

GoogleのFellowであるJeffrey Dean氏のWSDM'09における講演"Challenges in Building Large-Scale Information Retrieval Systems"のスライドの翻訳の最終回です。Googleの検索システムの10年間の進化の軌跡が紹介されており、今回は将来の課題についての紹介となります。イタリック体で一部解説・感想をいれています。翻訳は素人なので詳しくは元の資料を参照してください。

第1回：Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（１） - llameradaの日記
第2回：Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（２） - llameradaの日記
第3回：Google WSDM'09講演翻訳：大規模な情報検索システム構築における課題（３） - llameradaの日記

今後の進化の方向と課題

最後に興味深い方向についていくつか紹介する。

言語をまたがった情報検索

全ての世界の文書を全ての言語へと翻訳
- インデックスサイズの大幅な増加
- 高い計算コスト
- しかし、うまく出来ればユーザにとって巨大な利益
課題：
- 継続的な翻訳品質の向上
- より大きくて複雑な言語モデルを扱うための大規模システム
  - 1センテンスの翻訳 => 数TBのモデル上での100万回の参照

統計的な機械翻訳の基本的なアプローチでは、翻訳対象の文の訳となり得る全ての単語列（文）を列挙して、それらの中から最も適切な単語列を選択します。その為、大量の計算が必要であり、大規模化に際して様々な問題を解決する必要があります。

情報検索におけるアクセス制御リスト(ACL)

様々な公開レベル（プライベート、セミプライベート、広く共有、パブリック）が混じった文書に対する検索システム
- 例：電子メール <=> 10人の共有文書 <=> 10万人のメンバーのグループでのメッセージ <=> 公開Webページ
課題：様々な大きさのACLを効率よく扱える検索システムの構築
- 10人で共有する文書の対する最適な解は、世界中で共有する文書に対するものとは異なる。
- ドキュメントの共有パターンは時間と共に変化する。

現在のGoogleの電子メールに対する検索は、電子メールに閉じたものであり、また、その検索方式も一般的なアルゴリズムとなっています。電子メールのようなWebとは異なる文書に対する検索システムの洗練を目指しているように思えます。

効率の良い情報検索システムの自動構築

現在のところ、いくつかの検索システムを使っている。
- 例えば、あるシステムを1秒以内の更新のために使用し、別のシステムを大量の文書を日単位に更新するために使用している。
- 共通のインターフェイスだが、主に効率性のため非常に異なった実装となっている。
- 動作は良好だが、異なるシステムを構築・維持・拡張するのには大きな労力が必要。
課題：パラメータで特性の変えられる単一のシステムにより、パラメータを調整することで効率の良い検索システム自動的に構築できるだろうか？

半構造化データからの情報抽出

セマンティックな意味を明確に付与されたデータは、世界中のデータのごく一部。
しかし、半構造化されたデータは大量に存在
- 本やWebページのテーブル、入力フォームの背後に存在するデータ、
課題：未構造化・半構造化された情報源からの構造化された情報の抽出技術・抽出アルゴリズムの向上
- ノイズが多いが、冗長度も大きい
- 複数の異なる情報源の関連性をとり、合わせて、集約することを実現したい。

セマンティックWebとは全く異なるGoogleらしいアプローチです。Webページのテーブルからの情報抽出技術は以前より開発されていましたが、複数の情報源の取扱い方法をより洗練させることで、実用レベルまで情報抽出技術を発展させることを目指しているようです。

さいごに

大規模情報検索システムの設計と構築はやりがいのある、楽しい試み
- 新しい問題には継続的な進化が必要。
- 多くのユーザに利益をもたらす仕事
- 新しい検索技術にはしばしば新しいシステムが必要。
傾聴感謝

参考文献

Ghemawat, Gobioff, & Leung. Google File System, SOSP 2003.

Barroso, Dean, & H〓lzle. Web Search for a Planet: The Google Cluster Architecture, IEEE Micro, 2003.

Dean & Ghemawat. MapReduce: Simplified Data Processing on Large Clusters, OSDI 2004.

Chang, Dean, Ghemawat, Hsieh, Wallach, Burrows, Chandra, Fikes, & Gruber. Bigtable: A Distributed Storage System for Structured Data, OSDI 2006.

Brants, Popat, Xu, Och, & Dean. Large Language Models in Machine Translation, EMNLP 2007.