May 27, 2004

Spidering Hacks

[ ブックレビュー ]

Spidering Hacks―ウェブ情報ラクラク取得テクニック101選』がオライリーから出てます。

Spidering Hacks―ウェブ情報ラクラク取得テクニック101選

半年ほど前に洋書を軽く紹介しましたが、待望の和訳書です。

"Spidering - スパイダリング" という単語は、あまり日本では馴染みがないようです。Spidering というのは、プログラミングによりインターネット上のコンテンツを取得して何かしらの処理をする - 例えばお気に入りのサイトを定期的にチェックして更新情報を配信するプログラムなど - ことを指します。

World Wide Web の web はネットワークがリンクによりクモの巣(web)状になっているところから名づけられた名前ですが、そのクモの巣を徘徊するプログラム - 例えば Googlebot などの検索エンジンのロボット - のをクモに見立てて "Spider" と呼ぶことがあります。Spidering Hacks はその Spider を使った様々な Hack が掲載された本です。

実際には Perl の LWP::UserAgentWWW::Mechanize などの、Spider 開発用のライブラリを使ったプログラミングが中心です。目次をオライリーの書籍紹介ページで見ることができます。

・Yahoo! JAPANの新着情報を追跡する
・Googleの検索結果からblog絡みのものを除去する
・気象庁サイトから月間気象情報を取得する
・ウェブの更新を電子メールで通知する
・FreeDBとAmazon.comを用いてアルバム情報を検索する

といった具合で 101 個のネタが詰まった本です。単に Spidering の手法を学ぶ以外に、Perl でのプログラミングのスタイルや、Spidering を通じてウェブアプリケーションにおけるコンテンツ収集の自動化の考え方やノウハウが学べる、すばらしい本です。

目次をみていると、訳書を出版するにあたって加筆修正が結構加えられている様子。日本のウェブサイトを対象にした Hack が結構な数、入ってます。("@nifty瞬!ワードからデータを取得する" なんてのもあるなw) 翻訳者の村上さん自身による Hack ですね。グッジョブ。

かなりお勧めの書籍なので、興味のある方はぜひどうぞ。

# Blog Hacks も間もなくです。

Posted by naoya at May 27, 2004 01:52 AM | トラックバック (3)  b_entry.gif
トラックバック [3件]
TrackBack URL: http://mt.bloghackers.net/mt/suck-tbspams.cgi/1025
森繁プラグイン
Excerpt: こんにちは。まさかまだ電車男読んでないってことはありませんよね? さて。
Weblog: 小鳥 (a little bird)
Tracked: May 28, 2004 05:37 PM
Spidering Hacks日本語版
Excerpt: bibid:02445663 わー。日本語版出たー。 ていうか見落としてた。オライリーA池さんからメールもらって初めて気づいた。不覚。 これはけっこう前から邦訳を待ち望んでた本です。 ウェブを横断して情報を自動収集するプログラム、スパイダを自由自在に操り、目的の情報を取...
Weblog: smashmedia
Tracked: May 29, 2004 05:06 PM
『Spidering hacks―ウェブ情報ラクラク取得テクニック101選』
Excerpt: Spidering Hacksの紹介、視覚障害者へのテキストデータ提供の情報
Weblog: Dreamのお好み情報箱
Tracked: February 12, 2005 11:15 PM
コメント [4件]

こんにちは。
楽しく読ませていただいています。

私もfeedbackを使っていますが、
最近はfeedbackのアクセスが遅くなってきて、
自分でもfeedbackと同じ仕組みでも作って、
自分専用のスパイダー兼アグリゲータを作ろうかなぁと
思うようになりました。自分専用ならアクセスが
早くなるし。※カテゴリを絞れば最高だが…

それで、SPIDERING HACKSを読んでみましたが、
作るにはまだ足りないような気がしました。

naoyaさんがfeedbackを作った際に、
参考にした書物やサイトがあれば、
ご教示いただきたいです。

よろしくお願いします。

[1] Posted by: うんぼご at July 13, 2004 08:51 AM [返信]

こんにちは。

FeedBack 重くてすいません。blog の増加量がはげしくて自宅のオンボロサーバではだいぶきつくなってきました。どうしたものか。

さて、書籍の方ですが特に FeedBack を作るため、と思って読んだものはないのでなんともですね。何が知りたいかを言っていただければ、僕が読んだものを紹介できるとは思うのですが。

[2] Posted by: naoya at July 13, 2004 02:35 PM [返信]

ありがとうございます。

サーバが重くなったのは、
クローラーの情報収集処理と
アクセス数増加によるトラフィックでしょうか?
分散コンピューティングができればいいですね。

SPIDERING HACKSを読みながら、
CPANモジュールを理解してから、
XMLやpingの活用を把握してから、
また質問します。

ブログ激増の中に負けるな!!
応援しています!

[3] Posted by: うんぼご at July 13, 2004 05:51 PM [返信]

遅くなったのは blog サイトが急増してるのが原因ですが、もうひとつは一台のマシンで提供しているので web サーバと巡回サーバ、それから DB が同居しているところですね。

web と巡回を切り離すだけでぜんぜん違うと思うのですが、自宅が手狭なのでマシン二台はややきびしめです...。広い家に引っ越したいです。

[4] Posted by: naoya at July 13, 2004 05:58 PM [返信]
コメントする









名前、アドレスを登録しますか?