实验 词汇分析 1)使用任意分词方法编写算法实现汉语自动分词程序; 2)编写直接调用分词工具(jieba分词,中科院分词等)进行分词的程序; 3)用两种方法,给出至少50个句子的分词结果(以附件形式); 4)分别计算出两种分词结果的正确率,给出计算依据。
2021-06-07 14:07:10 33.55MB 自然语言处理 中文分词 jieba分词
1
实验 句法分析 1)使用至少两种依存句法分析工具(HanLP,Stanford CoreNLP 等)编写句法 程序; 2)给出至少20 个句子的分析结果,以结构化方式存储(json 或xml); 3)分别计算出不同方法结果的正确率,并对比不同方法的差异。 4)对结果进行可视化(选做)
2021-06-07 14:07:10 495.22MB 自然语言处理 standfordcorenlp hanlp
1
实验 字串处理 1)汉字字频统计 1. 给出前100个汉字高频字的频率统计结果; 2. 分别给出前1、20、100、600、2000、3000汉字的字频总和; 3. 计算汉字的熵值; 2)英文词频统计 1. 给出前100个高频单词的频率统计结果; 2. 分别给出前1、20、100、600、2000、3000单词的词频总和; 3. 计算单词的熵值; 3)针对不同规模语料重复上述实验;
2021-06-07 14:07:09 50.94MB 自然语言处理 汉字的熵 字串
1
Taming Text.pdf
2021-06-06 20:01:29 9.81MB 自然语言处理
机器学习分支之自然语言处理课件
2021-06-06 14:02:21 2.08MB 讲义 自然语言处理
1
自然语言处理(Natural Language Processing)俗称人机对话,是研究如何利用计算机来理解和处理自然语言的,即把计算机作为语言研究的工具,在计算机技术的支持下对语言信息进行定量化的研究,通常又被称为自然语言理解或计算语言学。
2021-06-04 13:07:46 30KB 自然语言处理
1
10万+微博数据文件打包 可用于自然语言处理任务的数据集 十万微博数据集 爬取的103个微博用户截止2019年8月发布的所有原创微博,以csv文件存储,每个用户对应一个csv文件。包括48位女性,55位男性,男女性分开存储。包括id、微博正文、微博原始图片URL、原始视频URL、发布日期、发布工具、点赞数、评论数、转发数、话题和@用户。总共包括十多万条微博,可以用做性别分类等自然语言处理任务的数据集。
2021-06-04 13:01:33 5.89MB 微博数据
使用自然语言处理分析ESG报告 概括 环境,社会和公司治理(ESG)指的是衡量公司或企业投资的可持续性和社会影响的三个主要因素。 这些标准有助于更好地确定公司的未来财务绩效(收益和风险)。 该分析从Internet上以PDF格式的ESG报告中提取文本,对这些信息执行NLP,与WordCloud,TDIDF一起总结了关键的ESG计划,并通过建立潜在狄利克雷分配(LDA)模型来发现主题。 为了使此练习尽可能简单,仅使用了一份ESG报告。 特别是。 鉴于ESG是一个广泛的话题。 不同的公司根据其业务运营和文化侧重于ESG的不同方面。 一个人可以潜在地从各行各业的不同公司获取更多的ESG报告,以捕获相关的ESG主题。 这将在另一分析中尝试。 笔记本 参考
2021-06-03 20:59:54 1017KB JupyterNotebook
1
OpenCC windows版,用来在中文简体、繁体之间相互转换。
2021-06-03 20:47:28 1.39MB 自然语言处理
1
机器学习专家Jason Brownlee所著,详细讲解了创造lstm的起因,优势,反向传播算法,数据集的归一化,Vanilla LSTMs,Stacked LSTMs,CNN LSTMs原理及原码实现。让您一本书就可以基本完全了解lstm!!
2021-06-03 14:07:54 6.74MB 序列训练 自然语言处理 lstm rnn
1