昨年の未踏ソフトウェア創造事業に採択された "blogページの自動収集と監視に基づくテキストマイニング" の研究成果を見学するため、東工大の奥村研究室に行って来ました。開発者は南野さん、藤木さんをはじめとする奥村研の方々です。技術に明るい面々と共に突撃。
詳しい研究内容は未踏ソフトウェアのサイトを見ていただくとして、ざっくり分けると
・そのページが blog かどうかを判定するシステム
・blog サイトから文書を集めるクローラー
・集めた文書をテキストマイニングして特徴的な話題を抽出するシステム
の 3 つ。これらが連携して大量の blog サイトから最近話題の事件を自動抽出したり、過去を振り返って当時何が話題になっていたかを探ったりするシステムができあがっていました。
この研究の大きな特徴は 2 つ
1. blog かどうかをメタデータなどに頼らず、文書の形式から判定する仕組み
2. 特徴度 (Burst 度というらしい) を導くための理論として有名な Kleinberg の手法よりも更に精度の高い手法を考え出し、それによってマイニングしている
といったところ。
1. の方はとにかく苦労の賜物で、ヒューリスティクス を積み重ねてできあがった多数のフィルタを通り抜けた文書は blog である、と判定するといったもの。FeedBack や Bulkfeeds はメタデータや ping サーバに頼って対象のサイトが blog かどうかを判定してますが、それとは異なり、この研究の仕組みでは文書の内容からそれを判断するというところが大きな特徴です。これによって blog ツールが流行りだす以前から blog のような形式で書かれていたサイトも巡回対象に加えることができます。
相変わらず blog ぽいサイトを見て「これ blog ?」なんて話になりがちなので、このシステムを使ってそのサイトが blog であることを認定する blog validator とかでっちあげてくださいなどと冗談も交えつつ、楽しく見学させていただきました。
任意のウェブサイトに対して、そのサイトが blog 形式かどうかを判定することができ、且つページを解析して記事ごとに文書を抽出することができるシステムだったので、いっそ「なんでも RSS」なサービスにしても面白いなんて話も出てました。
ウェブサイトの形を突き詰めていった結果できあがった、いわば実装先行型の blog という世界もいまや研究になるのか! なんて半分驚きながら訪問した東工大でしたが、いやいやこりゃ紛れもない研究です。実はこれが一番の感想だったりして。一年後ぐらいには、blog をテーマとした研究もたくさん増えているんでしょう。
久々にアカデミックな雰囲気を堪能しつつ、いろいろ刺激された東工大訪問でした。
で、帰り道に渋谷に寄って、参加メンバーで少し酒を飲みつつ談笑。技術者が集まったこともあり Perl や Ruby の言語設計の話、それから GPL のライセンスについてとか、激しくオタクな会話をして帰ってきました。