入門 正規表現 ~検索・置換・テキスト処理に強くなる! [プログラミング]
正規表現とは文書などを検索するときに使うもので、言葉の規則性・パターンを探し出すもの。
正規表現の種類
文字指定と量指定
具体的な文字と抽象的な文字
普通の文字と特殊文字、特殊文字はバックスラッシュを使うのが多い。
量指定は満腹か腹八分目かが重要
*ゼロ個以上
+1個以上
?1個またはゼロ個
{...}個数やその範囲を指定
これらは普通に使うと欲張りマッチングをする
HTMLソースから
の中で、タグだけを拾おうとけんさくするために
<.+>と探すと、がさがされずに
というような細かい大切な違いを解説してあった
位置を指定する正規表現
行頭 ^
行末 $
前方参照
後方参照
特殊な指定をする正規表現
OR指定・・・ただし、どちらか見つけたら仕事はやめてしまうので
東京|東京都を指定すると、東京都という文字列の東京をみつけたら仕事はやめてしまうので東京都はみつからない
そのまま引用・・・特殊文字を表すバックスラッシュなどをまとめて省略する方法/Q..../E
構成オプション
大文字小文字の区別をしない(?i)
ドット指定でと改行文字も拾いたい(?s)
改行文字の前後を^$で指定(?m)
空白文字 /s
構成オプションその他
構成オプションをなくす(?-i)
括弧は補足グループを指定するものと単なる括弧がある
正規表現を使う目的は検索と編集
同じ検索や編集でも効率的な使い方というものがある
巨大な正規表現一つでなにもかも対処しようとしてはいけない。
小さく整形して目的に近づけたりする
メモリを食いすぎないようにしよう。
正規表現は万能ではない、苦手なのは再帰といれこ構造
Javaで正規表現を使う方法
正規表現の具体的な使い方
良く陥りやすい正規表現の間違い
欲張りマッチと控えめマッチの使い分け、余計な空白など
正規表現の種類
文字指定と量指定
具体的な文字と抽象的な文字
普通の文字と特殊文字、特殊文字はバックスラッシュを使うのが多い。
量指定は満腹か腹八分目かが重要
*ゼロ個以上
+1個以上
?1個またはゼロ個
{...}個数やその範囲を指定
これらは普通に使うと欲張りマッチングをする
HTMLソースから
abcdwxyz
の中で、タグだけを拾おうとけんさくするために
<.+>と探すと、がさがされずに
abcdwxyz
がさがされるこれが欲張りマッチング、節約マッチングは<.+?>となるというような細かい大切な違いを解説してあった
位置を指定する正規表現
行頭 ^
行末 $
前方参照
後方参照
特殊な指定をする正規表現
OR指定・・・ただし、どちらか見つけたら仕事はやめてしまうので
東京|東京都を指定すると、東京都という文字列の東京をみつけたら仕事はやめてしまうので東京都はみつからない
そのまま引用・・・特殊文字を表すバックスラッシュなどをまとめて省略する方法/Q..../E
構成オプション
大文字小文字の区別をしない(?i)
ドット指定でと改行文字も拾いたい(?s)
改行文字の前後を^$で指定(?m)
空白文字 /s
構成オプションその他
構成オプションをなくす(?-i)
括弧は補足グループを指定するものと単なる括弧がある
正規表現を使う目的は検索と編集
同じ検索や編集でも効率的な使い方というものがある
巨大な正規表現一つでなにもかも対処しようとしてはいけない。
小さく整形して目的に近づけたりする
メモリを食いすぎないようにしよう。
正規表現は万能ではない、苦手なのは再帰といれこ構造
Javaで正規表現を使う方法
正規表現の具体的な使い方
良く陥りやすい正規表現の間違い
欲張りマッチと控えめマッチの使い分け、余計な空白など
タグ:正規表現
2009-09-28 13:20
nice!(0)
コメント(0)
トラックバック(0)
コメント 0