2007/06/08 | Python 正则表达式之中文匹配
类别(程序语言) | 评论(1) | 阅读(2459) | 发表于 22:45

        python 的re模块(即正则表达式模块)默认似乎是用Unicode处理,因此,如果目标文件的编码为GBK(gb2312或cp936,如双狐图形数据的格式)则其匹配结果为空。即下列的语句将得不到任何匹配结果。

        line=inputFile.readline()
        re.search(r'^Layer\sM\s'+'中文匹配词',line):

因此,需要对中文匹配词进行编码转换,即改写上面的语句为:

        keyword=(u'中文匹配词').encode('cp936')

        re.search(r'^Layer\sM\s'+keyword,line):

0

评论Comments

日志分类
首页[227]
+随笔[68]
学习札记[67]
科研工具[44]
文献摘译[2]
程序语言[20]
网络技巧[26]
--[0]