搜索【词】的结果

基于word2vec的大中华区词对齐库的构建

该文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3 200 000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10 000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有效的余弦相似度计算方法以及后处理技术。实验结果表明我们提出的大中华区词对齐模型在以上两种不同文体的词对齐语料库上的F1值显著优于现有的GIZA++和基于HMM的基准模型。此外,我们在维基百科上利用该词对齐模型进一步生成了90 029组准确率达82.66%的大中华区词语三元组。

2022-03-23 15:24:19 397KB 大中华区;词对齐;最长公共子序列;word2vec

1

Python微博敏感词搜索

这是一个微博敏感词搜索程序,把需要搜索的敏感词存'weibo.positive.train'里，每隔一定时间从微博API接口申请chunk，利用positive和negative结合的方法，完全结果输出到'weibo.censorshipOutput'

2022-03-21 11:01:52 5.91MB 微博 敏感词 搜索 Python

1

计算机网络-英文缩写词全集

2022-03-20 13:58:23 233KB Lamitry

1

爬取网页获得关键词词频.py

通过python写的爬取网页热并获取对应的词频 ***************************************************** 注释较为详细，可以自己输入网址爬取，形成本地文档

2022-03-19 15:29:42 2KB 爬虫热词词频

1

中文预训练词向量（知乎问答 word2vec +Ngram)-数据集

中文预训练词向量北京师范大学中文信息处理研究所与中国人民大学 DBIIR 实验室的研究者开源的"chinese-word-vectors"。github地址为：https://github.com/Embedding/Chinese-Word-Vectors 此中文预训练词向量为知乎Word + Ngram的词向量

2022-03-18 09:38:10 225.28MB 数据集

1

高数名词中英文对照

高数名词中英文对照,对学习英文高数的人很有帮助哦~完美学习算法也是必须的！

2022-03-17 22:40:53 22KB 高数名词 中英文 对照

1

视觉词典词袋模型有完整的介绍

视觉词典词袋模型有完整的介绍，ppt文档，注意是ENGLISH WRITTEN

2022-03-17 11:30:06 6.68MB 视觉词典 bag of features

1

【中文】【吴恩达课后编程作业】Course 5 - 序列模型 - 第三周作业 - 机器翻译与触发词检测.zip

【中文】【吴恩达课后编程作业】Course 5 - 序列模型 - 第三周作业 - 机器翻译与触发词检测

2022-03-16 13:03:49 209.31MB 深度学习 吴恩达 序列模型 课后作业

1

新浪微博搜索敏感词列表

新浪微博搜索敏感词列表,附件为文本文件，便于导入

2022-03-13 18:46:19 13KB 敏感词

1

python绘制词云图代码，含文件

用python绘制词云图代码，可设置字体大小，内含分词文件和中文字体

2022-03-13 17:35:53 2.81MB Python 词云

1

个人信息

热门下载

最新下载

其他资源