Spidering hacks
最近仕事で、ってか今日だけど、
LWP::UserAgent使って、HTML::Parserつかって
もりもりスクレイピングしてました、
楽勝かなぁと思ってたけど、RSSとかと違ってHTMLをもりもりパースするのは
激しく面倒だなぁと改めて実感。
XML形式はやっぱ楽だよなぁ。まあそれもCPANあってのことなんだけど。
むーってかもっと楽できそうな気がするんだよなぁ。
Spidering hacksはそれ系のネタ満載だからお勧めですね。
この週末読み直そう。
週明けも変なHTMLたちと戦うのかぁ。。
100%でなく60%くらいで頑張ろう(謎
Spidering hacks―ウェブ情報ラクラク取得テクニック101選
posted with amazlet on 06.10.06
おすすめ度の平均:
初心者は買っても無駄『Hacks』の白眉
混沌のWEBからデータを収集した人は必読
Perlデータマンジング―データ加工のテクニック集
posted with amazlet on 06.10.06
おすすめ度の平均:
便利なすぐ使えるイディオム満載一課に一冊