July 15, 2003

みなさんの blog のキーワード算出してみました

[ ウェブログに関すること ]

会社の後輩 D 君が、tf・idf 法という単語の重み付けをする方法?を使って RSS の中から特徴的なキーワードを抽出するスクリプトを書いていました。こりゃ面白いと思ったのでスクリプトを拝借して、RssRolling で巡回したみなさんの RSS を喰わせてみました。キーワードを見れば、今その blog でどんな話題が扱われているかなんとなく分かるような分からないような、なかなか興味深い結果になってます。

* keyword.rb の出力結果
http://naoya.dyndns.org/~naoya/keyword/

  • hirosh さんの『Soanblog 創庵』ですと、1位は「カフェ」。茶香間の話題が入っているのかな? (3位が「ジョジョ」だったりするのが笑えるのですが。)
  • とおる。さんの『とおるのウェブロ。』では 1 位が「Blosxom」。blosxom のドキュメント の更新情報を配信されているからでしょう。
  • hirata さんの『dh's memoranda』、1位は「moblog」。さすがです。1imc の記事が効いているのでしょうか。
  • 加野瀬さんの『ARTIFACT』のキーワードには「アニメ」や「オタク」の文字が。さすがにオタク文化考察サイト、特徴がはっきり出てますね。

他にもSFC大学院生のハマノさんの『network styly *』の一位はばっちり「SFC」だし、coco さんの『cat@log』は「リス」や「子猫」、梅田さんの『梅田望夫・英語で読むITトレンド』は「産業」「Blog」「企業」「IT」などと直球一線。

肝心の僕の blog は「白板」が一位だったりするんですが。数日前に Imagination at work についてブログしたのが効いてるみたい。

一番ウケたのが みらのさんの『Milano::Monolog』の 1位が「ワタシ」だったりするところなんですが..。(笑)

D作成の keyword.rb はchasen を使って形態素解析とやらを行って、その結果得られたキーワードを tf・idf 法にかけるという ruby スクリプト。解析対象の母集団は RssRolling が巡回しているサイトすべてです。すべての blog の中で、自分のサイトでしか使ってないキーワードほどポイントが高く、且つ、自分の blog の中でそのキーワードを連発しているほどポイントが高い、といった論理で計算されているそうです。かなりノイズというか、要らない単語や記号なんかも入っちゃってますが、その辺はご愛嬌ということで。

どうやら母集団をもっと増やせば増やすほど一般的な単語が削り取られて精度が増すとのこと。あと、RssRolling では前回巡回したサイトの RSS のキャッシュしか保存していないので、キャッシュを蓄積してそれを食わせればもっと精度が上がるだろうとのことです。

D君に聞いて、許可が得られたら明日あたりから一日一回スクリプトを回すようにして、日替わりで結果を表示できるようにしてみたいと思います。

Posted by naoya at July 15, 2003 12:02 AM | トラックバック (16)  b_entry.gif
トラックバック [16件]
TrackBack URL: http://mt.bloghackers.net/mt/suck-tbspams.cgi/276
Blogで使われる言葉の分析
Excerpt: NDO::Weblogで紹介されていたblog keywordはおもしろい。RSSの内容から単語を分析して格Blogでよく使われているキーワードだそうだ。ある意味特徴を表していておもしろい。今後も定期的に分析結果を出してくれるそうなので期待。 Going My Wayの特徴は以下の通り。 blog k...
Weblog: Going My Way
Tracked: July 15, 2003 11:24 AM
blogのキーワード
Excerpt: NDO::Weblog: みなさんの blog のキーワード算出してみました これ面白いですね。 このサイトも算出していただいてました。 1位 喩え 60.09ポイント 2位 TrackBack 57.94ポイント 3位 アルバム 54.72ポイント 4位 Handler 30.20ポイント 5位 CMS 25.35ポイント 6位 BLOG 2...
Weblog: @ parallel minds
Tracked: July 15, 2003 02:42 PM
RSSからキーワード算出
Excerpt: NDO::Weblog: みなさんの blog のキーワード算出してみました  RSSからそのサイトで使われる特徴的なキーワードを算出するというものなんですが、面白いですねえ。 blog keyword 1位 津山 50.07ポイント 2位 アニメ 43.45ポイント 3位 事件 36.53ポイント 4位 事故 31.27...
Weblog: ARTIFACT −人工事実−
Tracked: July 15, 2003 03:01 PM
Blogで使われている言葉ランキング
Excerpt: このBlogで1位に「#」が来ているのは、4行日記の「追伸」の冒頭にこの記号を使っているからと思われる。アイキャッチ程度に何気なく使っている「記号」であっても、コンピュータからは「情報」として扱われてしまうということを考えたほうがいいのかもしれない。
Weblog: Good Bye Internet .com
Tracked: July 15, 2003 04:10 PM
blog のキーワード算出
Excerpt: NDO::Weblog: みなさんの blog のキーワード算出してみました blog keyword 1位 匿名 80.12ポイント 2位 eBay 50.81ポイント 3位 AO 35.05ポイント 4位 ノード 34.51ポイント 5位 Kazaa...
Weblog: Yublog
Tracked: July 15, 2003 04:27 PM
blog keyword算出
Excerpt: blog調査
Weblog: s0s_bl0g
Tracked: July 15, 2003 05:10 PM
blog keyword
Excerpt: 1位 ペットボトル 17.26ポイント 2位 北国 17.26ポイント 3位 缶 15.63ポイント 。。。ペットボトル!?
Weblog: WEB-YATAI
Tracked: July 15, 2003 06:04 PM
RSSからのキーワード抽出
Excerpt: RSSからキーワードを抽出するというスクリプトについての話題が、NDO::Weblog: みなさんの blog のキーワード算出してみました で出ている。 D作成の keyword.rb はchasen を使って形態素解析とやらを行って、その結果得られたキーワードを tf・idf 法にかけるという ru...
Weblog: Twilight and Horizon
Tracked: July 15, 2003 10:54 PM
GETA。
Excerpt: NDO::Weblog: みなさんの blog のキーワード算出してみました の記事をみてぼくも何かやってみたくなり、 汎用連想計算エンジン GETA を導入しようとしたんですが、 いきなりつまづいています。 ...
Weblog: とおるのウェブロ。
Tracked: July 16, 2003 01:50 PM
blog keyword
Excerpt: NDO::Weblogさんの企画. 単純に出てきたキーワードを観ていると,普段読んでいるblogのイメージと一致していることも多いので「なるほど〜」と納得.
Weblog: sgn::blog
Tracked: July 17, 2003 08:34 AM
頻出キーワードは?
Excerpt: NDO::Weblogさんが面白いことをしてくれました。難しいところはよくわからないのですが、RSSを解析してそのウェブログの特徴的なキーワードを割り出してくれるのです。 さて、わがKASOKEN satelliteの結果はというと。。。...
Weblog: KASOKEN satellite
Tracked: July 17, 2003 06:59 PM
Thesis
Excerpt: FrontPage :: Research and Study :: Thesis 卒論関係のアイディア、メモなど。 発散メモ 関連リンク 発散メモ ■ 自分の PukiWiki 内のコンテンツを形態素解析して Google と組み合わせてゴニョゴニョ php_chasen とか使ってみる 他のWiki...
Weblog: PukiWiki/TrackBack 0.1
Tracked: October 2, 2003 10:34 AM
Thesis/発散メモ
Excerpt: ググるのではなく、予め登録しておいたニュース系サイトから、当該単語に合致する記事へのリンク一覧を表示。これも単純で既にありそうだけど、あったら欲しいとも思う。 -- fujita yuichi 2003-10-01 (水) 16:47:45 例えば、impress Watch, ZDNet, SlashDot などなど...
Weblog: PukiWiki/TrackBack 0.1
Tracked: October 5, 2003 02:49 AM
Thesis
Excerpt: FrontPage :: Research and Study :: Thesis 卒論関係のアイディア、メモなど。 発散メモ 関連リンク 発散メモ ■ 自分の PukiWiki 内のコンテンツを形態素解析して Google と組み合わせてゴニョゴニョ php_chasen とか使ってみる 他のWiki...
Weblog: PukiWiki/TrackBack 0.1
Tracked: October 5, 2003 02:56 AM
日記/2004-10-26/2004年10月26日/コメント
Excerpt: 日記/2004-10-26/2004年10月26日 TF/IDF法について調べる -- T.Yama 2004-10-26 (火) 18:09:07 New! ...
Weblog: PukiWiki/TrackBack 0.1
Tracked: October 26, 2004 06:20 PM
日記/2004-11-02/2004年11月2日
Excerpt: [前へ] [次へ] [目次] 2004年11月2日 † 行ったこと † PukiWikiの研究履歴への閲覧認証設定 $re...
Weblog: PukiWiki/TrackBack 0.1
Tracked: November 2, 2004 04:48 PM
コメント [23件]

おもしろいですねー。ぼくもこういうの何かやってみたいなぁ。

[1] Posted by: とおる。 at July 15, 2003 01:54 AM [返信]

へー、おもしろいですねえ。
自分のところ(METAMiX!)では
一位「ラッシュ」なんでだ?(多分blogサービスラッシュ)
二位「dad」
三位「blog」
四位「Kung」
五位「息子」
2,5位に主婦宣言が効いてる。

[2] Posted by: maskin at July 15, 2003 08:04 AM [返信]

おもしろいです(笑)。
なんでネコなんだろうと思ったら、ロシアのネコの話でした。

[3] Posted by: [cipher] at July 15, 2003 12:03 PM [返信]

掲載ありがとうございます。
僕のところの一位は「ー」ですか…
ああ、すみません。区切り記号に長音を使って
しまってました…

[4] Posted by: watal at July 15, 2003 12:15 PM [返信]

解析ありがとうです。
うちのは・・・

1位 ━ 40.06ポイント
2位 UNIX 31.27ポイント
3位 SCO 30.20ポイント
4位 Sun 21.57ポイント
5位 仙台 21.57ポイント
6位 IE 20.39ポイント

ってなんかバリバリのコンピュータ系って感じなのがおかしい。

1位の━がなんだかわからなかったのですが、調べたらわかりました。これでした(汗

Com━━━━(゚∀゚)━━━━ing!!

[5] Posted by: nagasawa at July 15, 2003 03:14 PM [返信]

おもしろい!
掲載ありがとうございました。

でも、自分のところを見ると1位が「#」。。。
毎日書いている4行日記のおしりに添えている「追伸」の
冒頭に「#」を使っているので、それが1位に来てしまった
のですね。日々のエントリーのフォーマットについて
考えてみようと思いました。

[6] Posted by: chief at July 15, 2003 03:50 PM [返信]

tf-idf は基本中の基本なんですが,
これだけでも結構楽しめますね。
勉強したい人には
stastical language learning
http://www.amazon.co.jp/exec/obidos/ASIN/0262032163/ref=sr_aps_eb_1/249-8128680-9827559
をお勧めします

[7] Posted by: Anonymous at July 15, 2003 05:13 PM [返信]

後輩が書いたプログラムで僕の blog のエントリがかつてないほど盛り上がっているというよくわからない状態になって来ました。(笑)

とりあえず D 君に了解は取ったので一日一回回してみることとします。今日の夜にでも。

[8] Posted by: naoya at July 15, 2003 06:40 PM [返信]

うちの一位が「Quoted」というのが悲しい。

[9] Posted by: 太鉄 at July 15, 2003 08:44 PM [返信]

ウチは引用した部分に左右されるコトが多いようです
6位の gt は 実体参照の > だったり・・・

[10] Posted by: B.B. at July 15, 2003 11:47 PM [返信]

とりあえず毎晩 3 時過ぎぐらいに一回スクリプトを回してページを入れ替えるようにしました。

ほんとは以前の結果もさかのぼれる様にしたほうがいいんでしょうが、ちょっと時間がないのでまずは妥協策。

[11] Posted by: naoya at July 16, 2003 01:58 AM [返信]

はずかしい・・・。
なんか、F1の話ばかりしているみたいな結果ですね。
実際は違うんだけどなー。

[12] Posted by: milano at July 16, 2003 06:52 PM [返信]

milano さん

もうちょっと精度を上げればキーワードを分散してカエルやテニスの話題なんかもランクインさせられるかもしれないんですけどね。(笑)

でも「ワタシ」は間違いなく1位かと..。

[13] Posted by: naoya at July 16, 2003 11:27 PM [返信]

おもろいですね!
うち(東京大仏TV)の3位の「ヲ」は
ヲバラトモコさんのヲですね。
「ムービー」がそんなに多いとは思ってもなかったです。
ありがとうございました!

[14] Posted by: 農宗 at July 16, 2003 11:36 PM [返信]

形態素解析にかける前に HTML タグを取り除いたりすると、
多少精度が上がりそうですね。

[15] Posted by: とおる。 at July 17, 2003 12:24 AM [返信]

楽しいものありがとうございます.

自分のところ,食べ物しか載っていない.
めっちゃイヤシイ感じで苦笑しました….

[16] Posted by: sgn at July 17, 2003 08:17 AM [返信]

今見たら、私のところから猫が落ちてました。
入れるようにがんばらないと!!

とーっても面白いです、これ。

[17] Posted by: coco at July 17, 2003 02:37 PM [返信]

農宗さん

ヲバラトモコさんがヲとバラに分割されてしまうのは、惜しい!って感じですね。(笑)

とおる。さん

確かに HTML を削ると精度がぐんと上がりますね。あとは URL 文字列とかも削った方がいいのかな。ということで、D君見てる?とかプレッシャーかけてみるテスト。

coco さん

あくまで直前に取得した RSS (MTのデフォルトだと15件かな?) のみ対象になっているので、そのうち猫のキーワードも出てくると思いますよ。:)

しかしまあ、ほんと他人のプログラムで盛り上がっちゃって。D 君に感謝。

[18] Posted by: naoya at July 18, 2003 01:00 AM [返信]

追記。

反響の多さに気を良くしたのか D 君がその後、抽出したキーワードを更に照らし合わせて似たもの blog をリストアップするのにチャレンジしていました。

ただ、抽出した結果を見るととても偏った結果になってしまっていました。ほとんどの blog の似たもの blog が JOI ITO さんの blog になっちゃってたり。D 君曰く、母集団が少なすぎてノイズを消去しきれないんだとか。

なんかもう僕の脳みそでは良くわからない世界に突入しているご様子でした。

[19] Posted by: naoya at July 18, 2003 01:31 AM [返信]

こんにちは。

このキーワード抽出役に立ちました。

毎日キーワード分析をするというので時々見ているのですが
今日のキーワードの2位に Fhoto というのがあり,
なんだと思って自分のところで検索をかけてみたら
Photo FridayのことをFhoto Fridayとか書いていました。(笑)

前回のものをコピペしてテーマなどの部分を直して使っていたため
ずっとそのような状態が続いていました。
お恥ずかしい。
慌てて直しましたが、賢いGoogleには
その記録が残ってしまいます。
http://www.google.co.jp/search?hl=ja&ie=UTF-8&oe=utf8&q=fhoto+friday&lr=lang_ja

[20] Posted by: kengo at July 19, 2003 05:56 PM [返信]

kengo さん

Photo だと一般的な単語として計算されるところが、Fhoto だとそのサイトに特徴的な単語になっちゃって、上位に上がっちゃうんでしょうね。(笑)

[21] Posted by: naoya at July 19, 2003 08:45 PM [返信]

こ、これは!お、面白いすぎ・・・
人が出ますね・・・

反応おそすぎ?!

[22] Posted by: hirosh at July 23, 2003 02:12 PM [返信]

hirosh さん

喜んでもらえたようで、こちらとしても光栄です。でもプログラムを書いたのは後輩の D 君です。ouch。

これを更に発展させてつながりを表現するとか面白いことをやれればいいのかなと思いつつも、シンプルだからこそウケがいいのかなと思ったりもします。

[23] Posted by: naoya at July 24, 2003 01:34 AM [返信]