

Python 中的正则表达式：文本处理的强大工具

码途钥匙

2025-03-19

一、正则表达式基础概念

什么是正则表达式

正则表达式（Regular Expression，常简写为 regex 或 regexp）是一种描述字符串模式的语法。它可以用来检查一个字符串是否符合某种模式，或者从一个字符串中提取符合特定模式的部分。例如，我们想要检查一个字符串是否是有效的电子邮件地址，或者从一段文本中提取所有的电话号码，这时正则表达式就能大显身手。

为什么使用正则表达式

高效匹配：相比于传统的字符串操作方法，正则表达式能够快速地在大量文本中进行复杂模式的匹配。例如，要在一篇长文章中查找所有以 “http://” 开头的 URL 链接，使用正则表达式可以一行代码搞定，而如果使用普通的字符串查找方法，可能需要编写冗长的循环和条件判断语句。

灵活定制：正则表达式提供了丰富的元字符和语法，可以根据具体需求定制各种复杂的匹配模式。无论是匹配数字、字母、特殊字符，还是匹配特定格式的文本，如日期、身份证号码等，正则表达式都能轻松应对。

二、Python 中的正则表达式库

Python 通过内置的re模块支持正则表达式操作。在使用正则表达式之前，我们需要先导入re模块：

import re

re模块提供了一系列函数，如search、match、findall、sub等，用于执行各种正则表达式操作。

三、正则表达式基础语法

字符匹配

普通字符：大多数普通字符，如字母、数字、标点符号等，在正则表达式中就表示其本身。例如，正则表达式abc会匹配字符串中连续出现的 “abc”。

元字符：一些特殊字符在正则表达式中有特殊含义，称为元字符。例如：

.：匹配除换行符之外的任意单个字符。例如，正则表达式a.c可以匹配 “abc”、“a1c” 等。

^：匹配字符串的开头。例如，^Hello会匹配以 “Hello” 开头的字符串。

$：匹配字符串的结尾。例如，World$会匹配以 “World” 结尾的字符串。

*：匹配前面的字符零次或多次。例如，a*可以匹配空字符串、“a”、“aa”、“aaa” 等。

+：匹配前面的字符一次或多次。例如，a+可以匹配 “a”、“aa”、“aaa” 等，但不匹配空字符串。

?：匹配前面的字符零次或一次。例如，a?可以匹配空字符串或 “a”。

[]：字符集，匹配方括号内的任意一个字符。例如，[abc]可以匹配 “a”、“b” 或 “c”。

()：分组，将括号内的表达式作为一个整体进行匹配，并可以提取分组的内容。例如，(ab)+可以匹配 “ab”、“abab”、“ababab” 等。

数量词

除了前面提到的*、+、?，正则表达式还支持其他数量词：

{n}：匹配前面的字符恰好 n 次。例如，a{3}会匹配 “aaa”。

{n,}：匹配前面的字符至少 n 次。例如，a{3,}会匹配 “aaa”、“aaaa”、“aaaaa” 等。

{n,m}：匹配前面的字符至少 n 次，最多 m 次。例如，a{3,5}会匹配 “aaa”、“aaaa”、“aaaaa”。

四、常用的正则表达式操作

查找匹配

1.re.search：在字符串中搜索第一次出现的匹配项。例如：

text = "The price is $100"
match = re.search(r'\$\d+', text)
if match:
print(match.group())  # 输出：$100

在这个例子中，r'\$\d+'是正则表达式，r表示这是一个原始字符串，防止反斜杠转义。\$匹配美元符号，\d+匹配一个或多个数字。

2. re.match：从字符串的开头开始匹配。例如：

text = "Hello, World!"
match = re.match(r'Hello', text)
if match:
print(match.group())  # 输出：Hello

如果字符串不以 “Hello” 开头，re.match将返回None。

3. re.findall：查找字符串中所有符合模式的匹配项，并返回一个列表。例如：

text = "I have 3 apples and 2 bananas"
matches = re.findall(r'\d+', text)
print(matches)  # 输出：['3', '2']

替换操作

4.re.sub：用指定的字符串替换匹配到的内容。例如，将字符串中的所有数字替换为 “X”：

text = "I have 3 apples and 2 bananas"
new_text = re.sub(r'\d+', 'X', text)
print(new_text)  # 输出：I have X apples and X bananas

分割字符串

5.re.split：根据匹配的模式分割字符串。例如，根据逗号和空格分割字符串：

text = "apple, banana, cherry"
parts = re.split(r',\s*', text)
print(parts)  # 输出：['apple', 'banana', 'cherry']

五、实际案例分析

`验证电子邮件地址`

假设我们要验证一个字符串是否是有效的电子邮件地址。一个简单的电子邮件地址正则表达式模式可以是：r'^[a-zA-Z0 - 9_.+-]+@[a-zA-Z0 - 9 -]+\.[a-zA-Z0 - 9-.]+$'。下面是验证代码：

email = "example@domain.com"
if re.match(r'^[a-zA-Z0 - 9_.+-]+@[a-zA-Z0 - 9 -]+\.[a-zA-Z0 - 9-.]+$', email):
print("有效的电子邮件地址")
else:
print("无效的电子邮件地址")

`提取 URL 链接`

从一段文本中提取所有的 URL 链接：

text = "Visit our website at http://www.example.com and also check out https://blog.example.net"
urls = re.findall(r'https?://[^\s]+', text)
print(urls)  # 输出：['http://www.example.com', 'https://blog.example.net']

Python 中的正则表达式为我们提供了强大的文本处理能力。通过掌握正则表达式的基础语法和常用操作，我们能够在各种文本处理任务中提高效率，实现复杂的功能。希望本文能帮助你开启正则表达式的学习之旅，在 Python 编程中更好地利用这一强大工具。

关注码途钥匙，成为技术先锋

【声明】内容源于网络

码途钥匙

欢迎来到 Python 学习乐园！这里充满活力，分享前沿实用知识技术。新手或开发者，都能找到价值。一起在这个平台，以 Python 为引，开启成长之旅，探索代码世界，共同进步。携手 Python，共赴精彩未来，快来加入我们吧！

内容 992

粉丝 0

码途钥匙欢迎来到 Python 学习乐园！这里充满活力，分享前沿实用知识技术。新手或开发者，都能找到价值。一起在这个平台，以 Python 为引，开启成长之旅，探索代码世界，共同进步。携手 Python，共赴精彩未来，快来加入我们吧！

总阅读285

粉丝0

内容992