この記事では、Pythonで使われる貪欲マッチと非貪欲マッチについて詳しく解説します。具体的なコード例、その詳細な解説、および応用例を2つ以上含めています。これにより、正規表現をより効率的に使う方法を理解し、日々のプログラミング作業に生かしていただければ幸いです。
貪欲マッチとは?
貪欲マッチとは、正規表現で最も広範なマッチを行う方式です。つまり、指定したパターンに合致する最長の文字列を見つけようとします。
貪欲マッチのコード例
以下に貪欲マッチの基本的なコード例を示します。
import re
text = "あいう<タグ>えお<タグ>かきく"
pattern = "<.*>"
match = re.search(pattern, text)
print(match.group())
このコードは`<タグ>えお<タグ>`と出力します。`<.*>`という正規表現は最長マッチングを行いますので、最初の`<`から最後の`>`までを抽出しています。
非貪欲マッチとは?
非貪欲マッチとは、正規表現で最も短いマッチを行う方式です。これは貪欲マッチとは逆で、最小限の合致する文字列を見つけようとします。
非貪欲マッチのコード例
非貪欲マッチを実現するコード例を以下に示します。
import re
text = "あいう<タグ>えお<タグ>かきく"
pattern = "<.*?>"
match = re.search(pattern, text)
print(match.group())
このコードは`<タグ>`と出力します。`<.*?>`という正規表現は最短マッチングを行いますので、最初の`<`から次の`>`までを抽出しています。
貪欲マッチと非貪欲マッチの違い
貪欲マッチと非貪欲マッチの主な違いは、マッチする範囲がどれだけ広いか、狭いかです。貪欲マッチはできるだけ広い範囲を、非貪欲マッチはできるだけ狭い範囲をマッチさせます。
応用例1: HTMLタグの抽出
HTML文書から特定のタグを抽出する際に、非貪欲マッチを使う例を紹介します。
import re
html = "内容1内容2"
pattern = ".*?"
matches = re.findall(pattern, html)
print(matches)
このコードは`[‘
‘, ‘
‘]`と出力されます。
応用例2: テキスト内の引用文を抽出
テキストから引用文を抽出する場面で貪欲マッチを使用する例を紹介します。
import re
text = '彼は言った、"こんにちは。" その後、"さようなら。"'
pattern = '"[^"]*"'
matches = re.findall(pattern, text)
print(matches)
このコードは`[‘”こんにちは。”‘, ‘”さようなら。”‘]`と出力されます。
まとめ
この記事では、Pythonでの貪欲マッチと非貪欲マッチについて解説しました。どちらを使うべきかは、抽出したいデータや文脈に依存します。理解と練習によって、より効率的なコードを書けるようになるでしょう。
コメント