『Spidering Hacks―ウェブ情報ラクラク取得テクニック101選』がオライリーから出てます。
半年ほど前に洋書を軽く紹介しましたが、待望の和訳書です。
"Spidering - スパイダリング" という単語は、あまり日本では馴染みがないようです。Spidering というのは、プログラミングによりインターネット上のコンテンツを取得して何かしらの処理をする - 例えばお気に入りのサイトを定期的にチェックして更新情報を配信するプログラムなど - ことを指します。
World Wide Web の web はネットワークがリンクによりクモの巣(web)状になっているところから名づけられた名前ですが、そのクモの巣を徘徊するプログラム - 例えば Googlebot などの検索エンジンのロボット - のをクモに見立てて "Spider" と呼ぶことがあります。Spidering Hacks はその Spider を使った様々な Hack が掲載された本です。
実際には Perl の LWP::UserAgent や WWW::Mechanize などの、Spider 開発用のライブラリを使ったプログラミングが中心です。目次をオライリーの書籍紹介ページで見ることができます。
・Yahoo! JAPANの新着情報を追跡する
・Googleの検索結果からblog絡みのものを除去する
・気象庁サイトから月間気象情報を取得する
・ウェブの更新を電子メールで通知する
・FreeDBとAmazon.comを用いてアルバム情報を検索する
といった具合で 101 個のネタが詰まった本です。単に Spidering の手法を学ぶ以外に、Perl でのプログラミングのスタイルや、Spidering を通じてウェブアプリケーションにおけるコンテンツ収集の自動化の考え方やノウハウが学べる、すばらしい本です。
目次をみていると、訳書を出版するにあたって加筆修正が結構加えられている様子。日本のウェブサイトを対象にした Hack が結構な数、入ってます。("@nifty瞬!ワードからデータを取得する" なんてのもあるなw) 翻訳者の村上さん自身による Hack ですね。グッジョブ。
かなりお勧めの書籍なので、興味のある方はぜひどうぞ。
# Blog Hacks も間もなくです。
こんにちは。
楽しく読ませていただいています。
私もfeedbackを使っていますが、
最近はfeedbackのアクセスが遅くなってきて、
自分でもfeedbackと同じ仕組みでも作って、
自分専用のスパイダー兼アグリゲータを作ろうかなぁと
思うようになりました。自分専用ならアクセスが
早くなるし。※カテゴリを絞れば最高だが…
それで、SPIDERING HACKSを読んでみましたが、
作るにはまだ足りないような気がしました。
naoyaさんがfeedbackを作った際に、
参考にした書物やサイトがあれば、
ご教示いただきたいです。
よろしくお願いします。
[1] Posted by: うんぼご at July 13, 2004 08:51 AM [返信]こんにちは。
FeedBack 重くてすいません。blog の増加量がはげしくて自宅のオンボロサーバではだいぶきつくなってきました。どうしたものか。
さて、書籍の方ですが特に FeedBack を作るため、と思って読んだものはないのでなんともですね。何が知りたいかを言っていただければ、僕が読んだものを紹介できるとは思うのですが。
[2] Posted by: naoya at July 13, 2004 02:35 PM [返信]ありがとうございます。
サーバが重くなったのは、
クローラーの情報収集処理と
アクセス数増加によるトラフィックでしょうか?
分散コンピューティングができればいいですね。
SPIDERING HACKSを読みながら、
CPANモジュールを理解してから、
XMLやpingの活用を把握してから、
また質問します。
ブログ激増の中に負けるな!!
応援しています!
遅くなったのは blog サイトが急増してるのが原因ですが、もうひとつは一台のマシンで提供しているので web サーバと巡回サーバ、それから DB が同居しているところですね。
web と巡回を切り離すだけでぜんぜん違うと思うのですが、自宅が手狭なのでマシン二台はややきびしめです...。広い家に引っ越したいです。
[4] Posted by: naoya at July 13, 2004 05:58 PM [返信]