URLアクセスしてhtmlソースを取り出す

Perlスクリプトからモジュールを利用してURLからhtmlファイルにアクセスします。割と簡単ですし、プロキシとしても利用できるので是非お試しを。

#LWP::UserAgentでindex.htmlにアクセスする
use LWP::UserAgent;
use HTTP::Request;
use HTTP::Response;

#URLの作成
$username = 'lucy';
$URL = "http://www.omnioo.com/~$username";

my $proxy = new LWP::UserAgent;
my $req = HTTP::Request->new('GET' => $URL); # HTTPリクエストを作成
my $res = $proxy->request($req); # $resにHTTPレスポンスが返ってくる
$content = $res->content; #htmlソースを取得

print $content;

取り出したhtmlソースは$contentに入るのでいろいろと使えます。Googleなどのいわゆるクローラーロボットはこういう感じでhtmlの内容を入手しているようです。(PerlではなくPythonを使っているという噂ですが...。)print "content-type: text/html\n\n";と併用するとブラウザーにアクセス先が表示されます。






プロフィール



  • Name :: 山上オサム ♂(37)
  • Hobby :: 武術
  • Work :: Web Designer