上传者: 38638033
|
上传时间: 2022-12-20 13:07:40
|
文件大小: 40KB
|
文件类型: PDF
如下所示:
文本过滤
result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点
result = re.sub(r'[^\u4e00-\u9fa5]', ,content)#只保留中文
result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点和数字
r