当初のご案内より少し遅くなってしまいましたが, 本日第2版を公開いたしました. 御利用下さり, これまで同様ご意見を頂ければ幸いです.
東工大の奥村研究室の研究成果である blogWatcher、その 2.0 が公開されています。なんというか、内部的に GETA から Lucene に変更されたなどの点もあるものの、外側のインタフェースが改良されていて、2.0 というより別物に近い印象。実用性を考えていろいろ変更したというのがよくわかります。
API があったり (OKUMURANK!) いろいろ面白いのですが、僕個人として一番これはいいと思ったのは、メインの blogWatcher ではなく blogWatcher の研究成果を利用して作られたなんでもRSSの方ですね。
名前のとおり(日付情報のあるサイトを)なんでもRSSに変換しちゃいますという代物で、ためしに僕が手HTMLで作っていたゲームサイト(オタい)のURLを突っ込んでみました。
その結果がこれ。正直かなりびっくりしました。HTMLをコピペしながら作ったものなので、規則性が若干崩れてるところがあったりするのに、その辺はちゃんと補正してかなり正確に記事を分割してRSSを生成しています。こりゃすげーや。
以前に東工大でblogWatcherのプレゼンを聴かせてもらったときに、その内部で利用しているコンテンツ・フィルタ (ページの日付情報やHTMLの規則性から、そのページがブログかどうかを判定し、かつデータ記事単位に分割するフィルタ) の仕組みを見せてもらって、これでなんでもRSSとか作れそうですねみたいなことをみんなでワイワイ言ってたんですけど、その成果物ですね、素晴らしいです。
早速色々使わせてもらいます。