共约250w条简体中文语料
2023-04-10 16:43:51 751.82MB 数据集 维基百科 中文语料
1
自定义中文语料,约2千万条数据,用于训练kenlm模型,使用地址:https://github.com/yeyupiaoling/PPASR/blob/develop/docs/beam_search.md#%E8%AE%AD%E7%BB%83%E8%87%AA%E5%B7%B1%E7%9A%84%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B
2022-11-17 19:27:15 287.19MB 中文语料 kenlm 语言模型
专业的标注工具(名实体识别 模板元素识别) 很实用 很权威
2022-05-05 18:50:54 11.94MB ace tools
1
PTT 中文语料 嗨,这里是PTT中文语料集,我透过将每篇文章化简为问答配对,其中问题来自文章的标题,而回覆是该篇文章的推文。可惜的是目前这份资料集的噪声还有点大,若您有更好的方法能提取出文章的问答配对,或发现这份资料集有什么能改进的部份,还请与我联系,也祝各位开发顺利:> 资料说明 资料集一共有两份,您可于或是从本专案的data资料夹里取得。 Gossiping-QA-Dataset.txt 搜集了PTT八卦版于2015年至2017年6月的文章,每一行都是一个问答配对,问与答之间以一个tab ( \t )区隔开,比如说 matlab有什麼炫砲一點的圖? 一樣的圖改一改顏色,有點半透明感覺更唬爛炫 有沒有情人節吃什麼cp值最高的八卦 吃屎啊廢話 免費的一餐 姆咪一個人守得住街亭嗎? 引來一堆肥宅穢土轉生 有機會喔 有沒有被落石砸到該反省的八卦 蔡英文執政就故意誇大報導 東森不意外 情人節
2022-04-02 15:40:15 133.63MB chatbot dialog corpus dataset
1
无论是从事算法研究还是语料标注的工程师,需要有最基础的认知:一款可以为自己提效的工具。赛莉开放标注平台可以自动标注、自动查错、短语搜索等功能,基本可以事半功倍。语料是精标数据,符合国标,XML格式含有丰富的标注信息,可以i通过工具转换成其他形式的标注序列。
2022-03-22 14:20:53 11KB 中文语料 语料自动标注 开放工具
1
An implement of the paper of EDA for Chinese corpus.中文语料的EDA数据增强工具。NLP数据增强。论文阅读笔记。
2021-12-20 16:15:02 21KB 机器学习
1
BOTSALLY® 赛莉®中文语料自动标注 更新了几个新的功能模块,包含数据转换,事件标注等。标准事件8大类35小类,严格按照ACE2005的标准定义设计。更多语料请关注 赛莉中文语料自动标注平台。
1
数据部分3
2021-12-06 14:34:17 30.95MB 数据挖掘 文本分类
1
使用nltk处理中文语料(1)- 统计相关-附件资源
2021-11-18 22:33:25 106B
1
word2vec介绍 word2vec官网:https://code.google.com/p/word2vec/ word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 word2vec计算的是余弦值,距离范围为0-1之间,值越大代表两个词关联度越高。 词向量:用Distributed Representation表示词,通常也被称为“Word Representation”或“Word Embedding
2021-11-11 17:13:13 184KB c ec gensim
1