会社の後輩 D 君が、tf・idf 法という単語の重み付けをする方法?を使って RSS の中から特徴的なキーワードを抽出するスクリプトを書いていました。こりゃ面白いと思ったのでスクリプトを拝借して、RssRolling で巡回したみなさんの RSS を喰わせてみました。キーワードを見れば、今その blog でどんな話題が扱われているかなんとなく分かるような分からないような、なかなか興味深い結果になってます。
* keyword.rb の出力結果
http://naoya.dyndns.org/~naoya/keyword/
他にもSFC大学院生のハマノさんの『network styly *』の一位はばっちり「SFC」だし、coco さんの『cat@log』は「リス」や「子猫」、梅田さんの『梅田望夫・英語で読むITトレンド』は「産業」「Blog」「企業」「IT」などと直球一線。
肝心の僕の blog は「白板」が一位だったりするんですが。数日前に Imagination at work についてブログしたのが効いてるみたい。
一番ウケたのが みらのさんの『Milano::Monolog』の 1位が「ワタシ」だったりするところなんですが..。(笑)
D作成の keyword.rb はchasen を使って形態素解析とやらを行って、その結果得られたキーワードを tf・idf 法にかけるという ruby スクリプト。解析対象の母集団は RssRolling が巡回しているサイトすべてです。すべての blog の中で、自分のサイトでしか使ってないキーワードほどポイントが高く、且つ、自分の blog の中でそのキーワードを連発しているほどポイントが高い、といった論理で計算されているそうです。かなりノイズというか、要らない単語や記号なんかも入っちゃってますが、その辺はご愛嬌ということで。
どうやら母集団をもっと増やせば増やすほど一般的な単語が削り取られて精度が増すとのこと。あと、RssRolling では前回巡回したサイトの RSS のキャッシュしか保存していないので、キャッシュを蓄積してそれを食わせればもっと精度が上がるだろうとのことです。
D君に聞いて、許可が得られたら明日あたりから一日一回スクリプトを回すようにして、日替わりで結果を表示できるようにしてみたいと思います。
へー、おもしろいですねえ。
自分のところ(METAMiX!)では
一位「ラッシュ」なんでだ?(多分blogサービスラッシュ)
二位「dad」
三位「blog」
四位「Kung」
五位「息子」
2,5位に主婦宣言が効いてる。
掲載ありがとうございます。
僕のところの一位は「ー」ですか…
ああ、すみません。区切り記号に長音を使って
しまってました…
解析ありがとうです。
うちのは・・・
1位 ━ 40.06ポイント
2位 UNIX 31.27ポイント
3位 SCO 30.20ポイント
4位 Sun 21.57ポイント
5位 仙台 21.57ポイント
6位 IE 20.39ポイント
ってなんかバリバリのコンピュータ系って感じなのがおかしい。
1位の━がなんだかわからなかったのですが、調べたらわかりました。これでした(汗
Com━━━━(゚∀゚)━━━━ing!!
[5] Posted by: nagasawa at July 15, 2003 03:14 PM [返信]おもしろい!
掲載ありがとうございました。
でも、自分のところを見ると1位が「#」。。。
毎日書いている4行日記のおしりに添えている「追伸」の
冒頭に「#」を使っているので、それが1位に来てしまった
のですね。日々のエントリーのフォーマットについて
考えてみようと思いました。
tf-idf は基本中の基本なんですが,
これだけでも結構楽しめますね。
勉強したい人には
stastical language learning
http://www.amazon.co.jp/exec/obidos/ASIN/0262032163/ref=sr_aps_eb_1/249-8128680-9827559
をお勧めします
後輩が書いたプログラムで僕の blog のエントリがかつてないほど盛り上がっているというよくわからない状態になって来ました。(笑)
とりあえず D 君に了解は取ったので一日一回回してみることとします。今日の夜にでも。
[8] Posted by: naoya at July 15, 2003 06:40 PM [返信]ウチは引用した部分に左右されるコトが多いようです
6位の gt は 実体参照の > だったり・・・
とりあえず毎晩 3 時過ぎぐらいに一回スクリプトを回してページを入れ替えるようにしました。
ほんとは以前の結果もさかのぼれる様にしたほうがいいんでしょうが、ちょっと時間がないのでまずは妥協策。
[11] Posted by: naoya at July 16, 2003 01:58 AM [返信]はずかしい・・・。
なんか、F1の話ばかりしているみたいな結果ですね。
実際は違うんだけどなー。
milano さん
もうちょっと精度を上げればキーワードを分散してカエルやテニスの話題なんかもランクインさせられるかもしれないんですけどね。(笑)
でも「ワタシ」は間違いなく1位かと..。
[13] Posted by: naoya at July 16, 2003 11:27 PM [返信]おもろいですね!
うち(東京大仏TV)の3位の「ヲ」は
ヲバラトモコさんのヲですね。
「ムービー」がそんなに多いとは思ってもなかったです。
ありがとうございました!
楽しいものありがとうございます.
自分のところ,食べ物しか載っていない.
めっちゃイヤシイ感じで苦笑しました….
今見たら、私のところから猫が落ちてました。
入れるようにがんばらないと!!
とーっても面白いです、これ。
[17] Posted by: coco at July 17, 2003 02:37 PM [返信]農宗さん
ヲバラトモコさんがヲとバラに分割されてしまうのは、惜しい!って感じですね。(笑)
とおる。さん
確かに HTML を削ると精度がぐんと上がりますね。あとは URL 文字列とかも削った方がいいのかな。ということで、D君見てる?とかプレッシャーかけてみるテスト。
coco さん
あくまで直前に取得した RSS (MTのデフォルトだと15件かな?) のみ対象になっているので、そのうち猫のキーワードも出てくると思いますよ。:)
しかしまあ、ほんと他人のプログラムで盛り上がっちゃって。D 君に感謝。
追記。
反響の多さに気を良くしたのか D 君がその後、抽出したキーワードを更に照らし合わせて似たもの blog をリストアップするのにチャレンジしていました。
ただ、抽出した結果を見るととても偏った結果になってしまっていました。ほとんどの blog の似たもの blog が JOI ITO さんの blog になっちゃってたり。D 君曰く、母集団が少なすぎてノイズを消去しきれないんだとか。
なんかもう僕の脳みそでは良くわからない世界に突入しているご様子でした。
[19] Posted by: naoya at July 18, 2003 01:31 AM [返信]こんにちは。
このキーワード抽出役に立ちました。
毎日キーワード分析をするというので時々見ているのですが
今日のキーワードの2位に Fhoto というのがあり,
なんだと思って自分のところで検索をかけてみたら
Photo FridayのことをFhoto Fridayとか書いていました。(笑)
前回のものをコピペしてテーマなどの部分を直して使っていたため
ずっとそのような状態が続いていました。
お恥ずかしい。
慌てて直しましたが、賢いGoogleには
その記録が残ってしまいます。
http://www.google.co.jp/search?hl=ja&ie=UTF-8&oe=utf8&q=fhoto+friday&lr=lang_ja