2010-06-01から1ヶ月間の記事一覧

ネットワークドライブ認証@動画サイトへの道

ネットワークドライブ(NASによるSAMBAサーバー)を使って動画をダウンロードしたいと思います。NASにはSAMBA認証をかけてあって、一度認証しないと内部ファイルにアクセスできないようになっています。とりあえず、調べるとPHPにはネットワークドライブのラッ…

SimpleXML&Tidy@動画サイトへの道

こんにちはー。再構築といいつつ、しばらく手を休めてましたが再開しました。 さて、Webページのスクレイピングですが、SimpleXMLとTidy関数を使います流れとしては、 - Tidy関数でHTMLを整形 - SimpleXML化 - Xpathで抽出 HTML整形のこーどは以下の通り。 $…

見直し。@動画サイトへの道

こんにちは。 今まで、勢いでやってきた動画への道ですが、ここらへんでいろいろな問題が出てきました。…というか、再構築していて気づいた…どんなことかというと、 自動化(ダウンロードなど)バッチのアルゴリズムの変更に手間がかかる。 DBアクセス周りが…

テザリングしたいなー

せっかく回線持ってるので、テザリングしたいなーと思っています。 欲をいえば冗長化したい。 ガタイはnetwalker。USBポート→netwalker→無線LANへ流したい… 冗長化と言うには弱いですが、そういうところの経験も積みたい。 というわけで、Netwalkerでテザリ…

ヘッダで分岐@動画サイトへの道

こんにちは。ちょっと間を空けていました。 さて、前回エントリのクローラーですが、試行錯誤の結果、大体(?)完成。 3回ぐらい書きなおしましたですよ 他の実装予定部分は今のところ置いといてます。 ↓実装予定 ・アクセスのインターバル ・逆順クロール…

クローリング中@動画サイトへの道

先に書いたクローラーを稼働中です。 一応、実装できたのは幅優先のクローリング。 リンクを階層に分けてクロールしていくタイプです。 今多分40万ぐらいのリンク踏んでるハズ…もちろん重複リンクはリンクから落としてあります。 で、クロールロジックって初…