自己搜集的NLTK的安装包,里面是Python3.4.1版本,可以安装Python,numpy,NLTK,还附带一些插件,例如jieba中文分词,matplotlib绘图,按照步骤安装,自然语言处理的基本功能都可以实现。
2023-11-21 06:08:18 49.83MB NLTK Python3.4.1 jieba 自然语言处理
1
jieba分词是目前最好的 python中文分词组件。在讲解jieba分词之前,我们先了解一下中文分词的一些概念: 最常用的TF-IDF 什么是TF-IDF呢?要分成2个部分来理解。 TF,词频——一个词在文章中出现的次数 IDF,在词频的基础上,赋予每个词一个权重,体现该词的重要性。 这是什么意思呢?我们来看个例子。 这是一条财经类新闻 上周 / 沉寂 / 一段 / 时间 / 的 / 白酒股 / 卷土重来 / ;/ 其中 / 古井贡酒 / 的 / 股价 / 创出 / 了 / 历史新高 / , / 这段 / 时间 / …… … 在这篇文章中 上周:出现 1 次 时间:出现 2 次 白酒股:出现
2023-11-15 15:21:07 39KB jieba 中文分词
1
烧瓶嗖嗖嗖嗖 一个简单的 python Flask 应用程序,它运行一个数据抓取器和一个 Whoosh 搜索引擎实现。 我写这篇文章主要是为了从 RSS 提要中抓取财经新闻(标题、出版日期时间、简要摘要),并将数据索引到 Whoosh 搜索引擎中。 只是一个尝试新事物的小爱好项目。 先决条件 BeautifulSoup - 烧瓶 - Whoosh - 以上所有都可以通过pip安装。 例如。 'pip 安装 Whoosh' 指示 1.安装需要的依赖2.添加你想抓取的RSS提要的url,即。 第 85 行,server.py。 请注意,您可能必须更改 scrape() 以迎合特定 RSS 提要的 XML 3. 使用“python server.py”运行服务器。 Flask 的默认端口为 5000 数据应该被抓取和索引,新文件将被添加到“/data”文件夹 用法 1. 要搜索特定术语,请
2023-04-12 22:45:09 35KB Python
1
jieba_fast 使用cpython重写了jieba分词库中计算DAG和HMM中的vitrebi函数,速度得到大幅提升
2023-02-24 14:26:12 19.43MB Python开发-自然语言处理
1
Python 58同城房价bs4 beautiful soup爬虫获取 room_name room_type room_area room_addr0 room_addr1 room_price房价名称类型面积地址价格等 jieba中文分词 tf-idf向量化 kmeans聚类 浏览器多页爬虫 jupyter notebook numpy pandas sklearn 数据分析 数据挖掘
2023-02-22 22:22:27 113KB jieba NLP 爬虫 kmeans
1
Python Jieba中文分词工具实现分词功能
2023-02-15 18:34:44 53.31MB python
1
TihuanWords.txt文档格式 注意:同一行的词用单个空格隔开,每行第一个词为同行词的替换词。 年休假 年假 年休 究竟 到底 回家场景 我回来了 代码 import jieba def replaceSynonymWords(string1): # 1读取同义词表,并生成一个字典。 combine_dict = {} # synonymWords.txt是同义词表,每行是一系列同义词,用空格分割 for line in open(TihuanWords.txt, r, encoding='utf-8'): seperate_word = line.str
2023-01-29 10:29:39 48KB ie jieba python
1
jieba分词器,支持lucene5版本。分词效果非常好,推荐使用。
2023-01-24 17:17:10 10.97MB 结巴 jieba lucene analysis
1
捷巴-lucene分析 jieba使用的lucene中文分析器和Tokenizer( )。
2023-01-24 17:11:16 5KB tokenizer analyzer chinese lucene
1
如下所示: 文本过滤 result = re.sub(r'[^\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点 result = re.sub(r'[^\u4e00-\u9fa5]', ,content)#只保留中文 result = re.sub(r'[^\0-9\.\u4e00-\u9fa5,。?!,、;:“ ”‘ '( )《 》〈 〉]', , content)#只保留中文和标点和数字 r
2022-12-20 13:07:40 40KB jieba python python实例
1