クローリング中@動画サイトへの道

先に書いたクローラーを稼働中です。
一応、実装できたのは幅優先のクローリング。
リンクを階層に分けてクロールしていくタイプです。
今多分40万ぐらいのリンク踏んでるハズ…もちろん重複リンクはリンクから落としてあります。
で、クロールロジックって初めて組んだのでロジックがだいぶカオスなことになっているので、組み直したい。



(再構築中)



終了ー
HTTPレスポンスヘッダ周りの処理を考え直したら意外とすっきり。
何してるかっていうと、クロスサイトした場合Content-Typeを調べてtextなら無視。octetstreamとか取得すべきファイルっぽかったらDBに登録しておいて、自動ダウンロードバッチがダウンロードする手順。


ちと、ページをスクレイピングしてタイトルを取り出したいとか、クローリング時点での機能を増やしたいので考案/再構築中です。