国科大自然语言处理第三次作业
2021-11-29 17:05:46 181.53MB TensorFlow nlp 命名实体识别
1
5个程序员刷题网站| 凯拉斯-伯特-纳 中文 NER 任务使用BiLSTM-CRF/BiGRU-CRF/IDCNN-CRF模型和预训练语言模型的Keras解决方案:支持BERT/RoBERTa/ALBERT )。 更新日志 2020年2月27日重构的代码keras_bert_ner并删除了一些多余的文件。 bert4keras == 0.2.5现在已集成为该项目的主要部分。 2019.11.14 bert4keras现在作为一个包使用,因为它没有太大变化。 albert 模型现在只能支持谷歌的版本。 2019.11.04修复计算句子准确率和做预测时结果错误的问题。 2019.11.01将keras-contrib crf_accuracy/ crf_loss替换为自定义的 crf_accuracy/crf_loss 来处理掩码标签。 未来的工作 迁移到 tensorflow 2.0。 添加其他 BERT 模型,例如 Distill_Bert、Tiny_Bert。 依赖关系 烧瓶== 1.1.1 keras == 2.3.1 numpy == 1.18.1 loguru == 0.4.1
2021-11-24 11:14:06 10.6MB 系统开源
1
其中包括程序项目三个, Text CNN,RNN+CRT,CNN+LSTM的文本分类。包括数据训练集和测试集。文本分类是NLP的基础任务,掌握它是进阶的基础 enjoy
2021-11-23 20:31:22 253.94MB rnn nlp 分类算法 lstm
1
PyTorch中的LSTM-CRF 用于序列标记的双向LSTM-CRF的最小PyTorch(1.7.1)实现。 支持的功能: CUDA的小批量培训 嵌入层中的查找,CNN,RNN和/或自我关注 分层递归编码(HRE) 条件随机场(CRF)的PyTorch实现 CRF损失的矢量化计算 矢量化维特比解码 用法 培训数据的格式应如下: token/tag token/tag token/tag ... token/tag token/tag token/tag ... ... 有关更多详细信息,请参见每个子目录中的README.md。 准备数据: python3 prepare.py training_data 训练: python3 train.py model char_to_idx word_to_idx tag_to_idx training_data.csv (v
2021-11-23 17:30:40 18KB crf pytorch sequence-labeling lstm-crf
1
背景介绍 建了仓库,地址在这里: 点star不迷路,相关文章在github上更新的会更交替一点QAQ 之前做过调整的命名体识别,项目背景实际上也很简单,就是我要做一个关键词匹配的功能,第一步我需要挖掘关键词。 ,明星领域,财经领域等等吧,这些领域的文本很有特色,一般人名/地名/公司名称/书名/电影名称都可以很好的表示文本关键信息。 在这种项目背景之下,很自然的就会想到使用命名体识别。我把在做这个项目的过程中,积累的一些资料汇总了一下,希望对大家有所帮助。 关于命名体识别,这是一个很大的领域,要做好,有很多工作要做。标题完全是为了能增加曝光,自己还是知道只是一个小学生,我会把自己看过的有用的东西都列出来,给大家提供一些先验信息。 之后看到的关于nert的文章会在此基础继续更新(最近存了好多新文章还没看/苦逼码农/ QAQ),不过建议大家star一下Github,不迷路,我给自己的计划是精读一
2021-11-20 14:11:54 4KB 系统开源
1
BERT-CRF-for-Chinese-NER Using BERT+CRF model to do Chinese NER task 如何运行 链接: 密码: 0qtc 请从网盘链接下载bert-chinese预训练模型,放在chinese-bert文件夹下 直接python run_ner.py即可
2021-11-18 10:06:09 2.36MB 附件源码 文章源码
1
BILSTM_CRF_NER 批处理的PyTorch实现支持双向LSTM-CRF。 用法 培训/测试数据的格式应如数据目录中所示: 训练: python train.py 评估: python eval.py 其他 settings.py是定义参数的地方。 load_data.py实现了一个数据生成器,用于生成批量大小的张量。 pytorch_tutorial_vec.py是pytorch BiLSTM-CRF教程的矢量化版本。
2021-11-16 10:18:00 14.89MB Python
1
meanfield-matlab:用于全连接CRF中的有效推理的MATLAB包装器
2021-11-15 17:09:48 1.76MB matlab crf meanfield MATLABC++
1
中文命名实体识别 数据集 本项目尝试使用了多种不同的模型(包括HMM,CRF,Bi-LSTM,Bi-LSTM + CRF)来解决中文命名实体识别问题,数据集用的是论文ACL 2018 中收集的简历数据,数据的格式如下,它的每个行由一个字及其对应的标注组成,标注集采用BIOES,句子之间用一个空行替换。 美 B-LOC 国 E-LOC 的 O 华 B-PER 莱 I-PER 士 E-PER 我 O 跟 O 他 O 谈 O 笑 O 风 O 生 O 该数据集就位于项目目录下的ResumeNER文件夹里。 运行结果 下面是多种不同的模型以及这Ensemble这四个模型预测结果的准确率(取最好): HMM 慢性肾功能衰竭 双线性STM BiLSTM + CRF 合奏 召回率 91.22% 95.43% 95.32% 95.72% 95.65% 准确率 91.49% 95.43% 95.37% 95.74% 95.69% F1分数 91.30% 95.42% 95.32% 95.70% 95.64% 最后一列Ensemble是将这四个模型的预测结果结合起来,使用“
2021-11-13 17:18:20 24.44MB nlp hmm crf named-entity-recognition
1
nlp_ner 使用Bi-LSTM和crf来进行人名识别,数据集人民日报98年1月标注数据集,训练:验证:测试为3:1:1 数据说明 原数据文件是/data/rmrb199801.txt data_process.py对文件进行了大量的处理 结果 acc:0.99 f1:0.9
2021-11-13 10:03:59 43.54MB Python
1