200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > Python网络爬虫之正则表达式(二)

Python网络爬虫之正则表达式(二)

时间:2021-08-21 12:18:07

相关推荐

Python网络爬虫之正则表达式(二)

1 re模块

Python通过re模块提供对正则表达式的支持,使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例,然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作。

还是直接上代码:

上述代码的输出结果为:hello。

Pattern不能直接实例化,必须使用pile()进行构造。Pattern对象是一个编译好的正则表达式,通过Pattern提供的一系列方法可以对文本进行匹配查找。pattern也可以理解为一个匹配模式。

接下来讲解一下Match对象,Match对象是一次匹配的结果,包含了很多关于此次匹配的信息,可以使用Match提供的可读属性或方法来获取这些信息。

属性:

string:匹配时使用的文本。re:匹配时使用的Pattern对象。pos:文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。endpos:文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。lastindex:最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None。lastgroup:最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None。

方法:

group([group1,…]):获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名;编号0代表整个匹配的子串;不填写参数时,返回group(0);没有截获字符串的组返回None;截获了多次的组返回最后一次截获的子串。groups([default]):以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代,默认为None。groupdict([default]):返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内。default含义同上。

2 pile(string[,flag])

此方法是通过第一个参数传入正则表达式的原生字符串,就可以编译生成pattern对象,还有另一参数flag是匹配模式,取值可以使用位运算符“|”来表示同时生效,具体的选值及其含义如下:

re.I(全拼:IGNORECASE):忽略大小写(括号内是完整写法,下同)re.M(全拼:MULTILINE):多行模式,改变^和$的行为re.S(全拼:DOTALL):点任意匹配模式,改变.的行为re.L(全拼:LOCALE):使预定字符类\w\W\b\B\s\S取决于当前区域设定re.U(全拼:UNICODE):使预定字符类\w\W\b\B\s\S\d\D取决于unicode定义的字符属性re.X(全拼:VERBOSE):详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。

3 re.match(pattern, string[, flags])

这个方法将会从string的开头开始,尝试匹配pattern,一直向后匹配,如果遇到无法匹配的字符,立即返回None,如果匹配未结束已经到达string的末尾,也会返回None。两个结果均表示匹配失败,否则匹配pattern成功,同时匹配终止,不再对string向后匹配。

方法使用参考代码如下:

输出为:hello

4 re.search(pattern,string[,flags])

search方法与match方法极其类似,区别在于match()函数只检测re是不是在string的开始位置匹配,search()会扫描整个string查找匹配,match只有在0位置匹配成功的话才有返回,如果不是开始位置匹配成功的话,match()就返回None。同样,search方法的返回对象同样match()返回对象的方法和属性。

方法使用参考代码如下:

输出为:world

5 re.split(pattern, string[, maxsplit])

按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数,不指定将全部分割。

输出为:[one, wo, hree]

6 re.findall(pattern, string[, flags])

搜索string,以列表形式返回全部能匹配的子串。

输出为:[1,2]

7 Re模块的另一种使用方法

上面诸如match、search等方法的调用,还可以通过pattern.match和pattern.search方法来完成,这样就避免了将pattern作为第一个参数传入啦,到底用那种方法,看个人的习惯就好。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。