April 18, 2004

未踏ソフトウェア創造事業の blog マイニングを見学

[ ウェブログに関すること ]

昨年の未踏ソフトウェア創造事業に採択された "blogページの自動収集と監視に基づくテキストマイニング" の研究成果を見学するため、東工大の奥村研究室に行って来ました。開発者は南野さん、藤木さんをはじめとする奥村研の方々です。技術に明るい面々と共に突撃。

詳しい研究内容は未踏ソフトウェアのサイトを見ていただくとして、ざっくり分けると

・そのページが blog かどうかを判定するシステム
・blog サイトから文書を集めるクローラー
・集めた文書をテキストマイニングして特徴的な話題を抽出するシステム

の 3 つ。これらが連携して大量の blog サイトから最近話題の事件を自動抽出したり、過去を振り返って当時何が話題になっていたかを探ったりするシステムができあがっていました。

この研究の大きな特徴は 2 つ

1. blog かどうかをメタデータなどに頼らず、文書の形式から判定する仕組み
2. 特徴度 (Burst 度というらしい) を導くための理論として有名な Kleinberg の手法よりも更に精度の高い手法を考え出し、それによってマイニングしている

といったところ。

1. の方はとにかく苦労の賜物で、ヒューリスティクス を積み重ねてできあがった多数のフィルタを通り抜けた文書は blog である、と判定するといったもの。FeedBack や Bulkfeeds はメタデータや ping サーバに頼って対象のサイトが blog かどうかを判定してますが、それとは異なり、この研究の仕組みでは文書の内容からそれを判断するというところが大きな特徴です。これによって blog ツールが流行りだす以前から blog のような形式で書かれていたサイトも巡回対象に加えることができます。

相変わらず blog ぽいサイトを見て「これ blog ?」なんて話になりがちなので、このシステムを使ってそのサイトが blog であることを認定する blog validator とかでっちあげてくださいなどと冗談も交えつつ、楽しく見学させていただきました。

任意のウェブサイトに対して、そのサイトが blog 形式かどうかを判定することができ、且つページを解析して記事ごとに文書を抽出することができるシステムだったので、いっそ「なんでも RSS」なサービスにしても面白いなんて話も出てました。

ウェブサイトの形を突き詰めていった結果できあがった、いわば実装先行型の blog という世界もいまや研究になるのか! なんて半分驚きながら訪問した東工大でしたが、いやいやこりゃ紛れもない研究です。実はこれが一番の感想だったりして。一年後ぐらいには、blog をテーマとした研究もたくさん増えているんでしょう。

久々にアカデミックな雰囲気を堪能しつつ、いろいろ刺激された東工大訪問でした。

で、帰り道に渋谷に寄って、参加メンバーで少し酒を飲みつつ談笑。技術者が集まったこともあり Perl や Ruby の言語設計の話、それから GPL のライセンスについてとか、激しくオタクな会話をして帰ってきました。

Posted by naoya at April 18, 2004 11:00 PM | トラックバック (5)  b_entry.gif
トラックバック [5件]
TrackBack URL: http://mt.bloghackers.net/mt/suck-tbspams.cgi/984
未踏 Blog 見学
Excerpt: blogページの自動収集と監視に基づくテキストマイニング
Weblog: たつをの ChangeLog
Tracked: April 20, 2004 08:39 AM
Blog界でGPSが流行ったのは何時?
Excerpt: IPAX Spring 2004レポートその1です。 Blogの話題でGPSが流行ったのって、いつだか判りますでしょうか。 個人的にはこの2,3日、このネタが駆け巡ってる時かなと思うんですが、客観的に出せる証拠がない。 その「客観的証拠」を出せるシステムを、考えているところがありま...
Weblog: ここギコ!
Tracked: May 13, 2004 10:51 PM
Amazon/Webサービス
Excerpt: http://japan.internet.com/ecnews/20041005/12.html http://japan.internet.com/webt...
Weblog: PukiWiki/TrackBack 0.1
Tracked: November 6, 2004 08:05 PM
Amazon/Webサービス
Excerpt: Amazon Webサービス Google.jp:Amazon Webサービス http://xml-jp.amznxslt.com/onca/xml3?t=b...
Weblog: PukiWiki/TrackBack 0.1
Tracked: November 6, 2004 08:45 PM
ネタ
Excerpt: 「日本人にはBlogより日記」、はてなの人気に迫る - CNET Japan 「日本人にはBlogより日記」、はてなの人気に迫る - CNET Japan Ka...
Weblog: PukiWiki/TrackBack 0.1
Tracked: November 6, 2004 09:07 PM
コメント [0件]
コメントする









名前、アドレスを登録しますか?