Perl memo

http://digit.que.ne.jp/work/index.cgi?Encode
Webから取って来たデータの日本語部分の処理をPerlで記述したいんだが変換が、どーもうまくいかない…
分かった。sjisに変換すれば動く。かなり意外。

$content = get ($targeturl . $pagepos) ;
$content = encode('shift-jis',decode('euc-jp',$content)) ;

こんな感じ。
あと、複数のページに分かれているデータをwhileループで終わりまで取って来るスクリプトもできた。

ソース引用しようとしたがサニタイジングにひっかかるようで、貼り付けできん。うーむ。

うし、正規表現を使った文字列置換とサブストリング組み合わせてゴミ除去関数かんせーい。ピュアなデータだけ抜けるようになった。
Webから欲しいもの抜いてくるのは7割がたできたなー。次はDBにデータを突っ込むところか。