Spidering hacks―ウェブ情報ラクラク取得テクニック101選
![]() |
回り道しても読む価値がありました |
私には投資のためにウェブ情報を利用するアイデアがあり、それを実現する方法を探していた時にこの本を見つけました。
書いてある事は興味深かったのですが、事例のほとんどがPerlで書かれており、Perlがわからないのでさっぱり理解できません。そこで入門本を買ってPerlの学習から始めました。そのために数ヶ月回り道しましたが、その価値はあったと思います。「知りたい事を知る事ができた」というより「自分の世界が拡がった」感じです。
![]() |
初心者は買っても無駄 |
中級者以上用。
洋書の役なので中級者以上でないと意味不明の訳が多い。
![]() |
『Hacks』の白眉 |
2004年5月26日リリース。O'REILLYの『Hacks』シリーズの邦訳。最近のO'REILLYの『Hacks』のシリーズと『The Missing Manual』シリーズはどれも見逃せない面白さである。(●^o^●)
『Spider』とはインターネットから様々な情報を自動的に取得するプログラムの総称である。ネットの海から欲する情報を吸い出す。それは単にWWWだけでなく、例えば電子メールのPOP3サーバから添付ファイルだけを抜き出す。それら徹底した収集方法を獲得し、次にそれらをRSSを用いてデータを再利用したり、ダッシュボードのウイジットの引っ張るデータとしたりする。(●^o^●)最高にCoolな本である。
特徴として執筆者2名を支える『貢献者』が圧倒的に厚い(熱いとも言える(●^o^●))事が上げられる。それがこの本の中身をすばらしいものにしている!!!『Hacks』の白眉が本書である。
![]() |
混沌のWEBからデータを収集した人は必読 |
WEBから特定の情報源を収集して、体系立てて保存したいと考えている人は、必読。
本書は文字列の処理に優れたPerlを中心に記述されているが、WEBアプリケーションに特化したPHPのサンプルが紹介されている。
収集したデータをブログで利用されているRSS(XML)形式にして再公開するための手法も紹介されている。
さらに、スパイダーを運用するに当たっての注意事項などにもページを割いている点は好感。
そして、原著は米国で記述されたものだが、翻訳をする際に日本独自の記述もあり、日本語処理などに戸惑うことは少ないだろう。
買って損なし。値段以上の価値がある。
![]() |
ただの翻訳ではないすばらしい内容 |
スパイダを使用する上での方法論、アルゴリズム、利用方法などが解説されています。
この本では最新のPerl5.8に対応した、また新しいモジュールに対応した内容となっています。今まではオライリーの「Webクライアントプログラミング」という本を参考にスパイダ、ロボットを作っていたが、それを十分上回る内容と情報量です。
オライリーのHackシリーズは通常100種類のHackが解説されているのですが、本書では101あります。この101個目は日本語版での書き下ろしで、Perlを使用した日本語処理に関する基本から応用を解説しています。
また、通常翻訳本は英語の内容を日本語にしたものですが、本書はいくつかのHackが日本のWeb環境に合わせて書き直されています。(コードも)
翻訳もすばらしく、日本語環境に合わせているのでそれだけでも5つ星です。


