2012年2月22日水曜日

講演「Wikipediaマイニング」を聴いてきました

東京大学知の構造化センターの中山浩太郎特任助教による「Wikipediaマイニング」という講演会に参加してきました。

Wikipediaに蓄積された知識をどのようにして利用するかというようなお話でした。
私が理解した範囲で、印象に残った箇所のみ簡単にまとめておきます。
理解が間違っている箇所もあるかもしれないので、あまり内容を当てにしないでください。

Wikipediaをリソースとして利用する利点は講演でたくさん挙げられていたのですが、主なものとして次のようなものが挙げられていました。

・データ量が膨大である
・半構造化された知識が蓄積されている
・URLにより概念が一意に定まる

・密なリンク構造が存在している
・アンカテキストの質が高い

Wikipediaのデータ量が膨大である点は言わずもがなだと思います。

半構造化された知識、というのは、Wikipediaの各ページはTitle, Infobox, Categoriesなど、ある程度構造化された状態で知識が保持されている、という意味です。

3つめのURLにより概念が一意に定まる、というものは、例えば "Apple" という単語は現実世界では曖昧性がある(果物のリンゴを指すこともあれば、Mac OSを販売している企業を指すこともある)が、Wikipediaの場合は同じAppleの場合でも、指すものが違う場合は異なるページが用意されており、URLから何を指すのかを区別できる、という利点です。
途中で挙げた Apple の例であれば、
果物のリンゴ:http://en.wikipedia.org/wiki/Apple
企業:http://en.wikipedia.org/wiki/Apple_Inc.
というように、同じAppleに対しても異なるURLで記事が用意されています。

密なリンク構造と、最後のアンカテキストについては密接に関連していると思うのですが、Wikipediaは記事間に多くのリンクが存在しています。
URLにより概念は一意に定まるので、このリンクから成るネットワークは概念間のネットワークと捉える事ができ、それをうまく使うことが出来るのではないか、ということでした。
また、そのリンクを貼る際には、何かの文字列にリンクが貼られる(例えば Apple という文字列に対して http://en.wikipedia.org/wiki/Apple_Inc. というURLへのリンクが貼られる)のですが、その文字列も有効に使えるのではないか、とのことでした。

あるページへのバックワードリンクが、どのような文字列に対して貼られているか(どのような文字列のリンク先が、"あるページ"になっているか)を解析すると、URLによる概念の一意性より、ある概念を指す様々な表現を得ることができます。
これは、類義語を探すのに役立つとのことでした。表記ゆれのデータベースなんかもこれから作れそうですね。


このような背景をもとに、中山さんが今まで携わってきた研究をいくつか紹介していただきました。
詳細は省略させて頂きますが、連想シソーラス(http://dev.sigwp.org/WikipediaThesaurusV3/)や、翻訳辞書(http://dev.sigwp.org/WikipediaBilingualDictionary/)、Wikipedia API(http://sigwp.org/en/index.php/Wikipedia_API)などを紹介して頂きました。
触っていみると結構面白いので、みなさんも是非触ってみてください。


もう一つ大きな話題として、MIGSOMというものを紹介して頂きました。
脳科学の分野で知られている神経細胞移動を応用して、クラスタリングのアルゴリズムを作れないかというものでした。

私は脳科学は全くわからないのですが、どうも脳の神経細胞というのは自ら動いて最適な場所を見つけ出すらしいです。
脳のしわというのは、この移動による張力によって出来るらしいですね。全然知らなかったです。
このような細胞が自ら最適な場所を動いて探す、という仕組みをクラスタリングに応用できないかという発想で考えられたアルゴリズムがMIGSOMです。
フィーチャーとしては、先程少し触れたリンク構造や、アンカテキストなどを使っているとのことでしたが、詳細は私もわからないので、興味の有る方は各自調べてください…。
講演では、Wikipediaの各ページを2次元の座標上に落としてMIGSOMを適用した結果が紹介されていました。
スポーツに関するページはスポーツで関するページごとに集まったり、都市に関するページは都市に関するページなどで集まったり、といった様子が見て取れました。

以上、簡単ですが、こんな感じで今後も忘備録を書いていければと思っています。

0 件のコメント:

コメントを投稿