ページ

2005年5月17日火曜日

URL を抽出するための正規表現

さっきの 「.Text のコメントの自動リンク処理の修正」 の中で .Text は URL を抽出するのに正規表現を使っていると書きましたが、この正規表現ってけっこういいかげんっぽいです。なので、今後もうまくリンクにできない URL に遭遇する可能性大です。ほんとうなら、RFC なんかに則ったちゃんとした正規表現にしておきたいところです。そうすれば、どんな URL がきても大丈夫なはずです。(まぁ、RFC から外れた形式の URL なんかが書かれてるとダメになっちゃいますが、これは対処療法的に対応するしか仕方ないですしね)


で、こういう正規表現って誰かが書いてるだろうと思ってググってみました。
http URL の正規表現
Perl 向けに書かれたドキュメントのようですがすばらしいです。URL の正規表現も RFC を元にしたとてもきっちりとした正規表現になっているようです。
# ちょっと下にある 「メールアドレスの正規表現」 で紹介されている
# 正規表現ってものすごいな。

0 件のコメント:

コメントを投稿

注: コメントを投稿できるのは、このブログのメンバーだけです。