贝特维兹 BertViz是用于可视化Transformer模型中注意力的工具,支持库中的所有模型(BERT,GPT-2,XLNet,RoBERTa,XLM,CTRL等)。 它扩展了的以及的库。 资源资源 :joystick_selector: :writing_hand_selector: :open_book: 总览 正面图 头部视图可视化给定转换器层中一个或多个注意头产生的注意模式。 它基于出色的。 尝试此 其中已预加载了头部视图。 头部视图支持Transformers库中的所有模型,包括: BERT: GPT-2: XLNet: RoBERTa: XLM: 阿尔伯特: DistilBERT: (和别的) 模型视图 模型视图提供了对模型所有层和头部的关注的鸟瞰图。 试用此 其中已预加载了模型视图。 模型视图支持Transformers库中的所有模型,包括: BERT: GPT2: XLNet: RoBERTa: XLM: 阿尔伯特: DistilBERT: (和别的) 神经元视图 神经元视图将查询和键向量中的单个神经元可视化,并
1
PyTextRank PyTextRank是一个Python实现TextRank作为,用于: 从文本文档中提取排名靠前的短语 对文本文档进行低成本的提取摘要 帮助推断从非结构化文本到结构化数据的链接 背景 与的更普遍用法相比, PyTextRank的目标之一是(最终)为提供支持。 这些方法可以互补的方式一起使用,以改善总体结果。 图算法的引入-特别是-为集成其他技术以增强执行的自然语言工作提供了更加灵活和强大的基础。 此处的实体链接方面仍然是计划中的后续版本,正在进行中。 在内部PyTextRank构造一个引理图以表示候选短语(例如,无法识别的实体)及其支持语言之间的链接。 一般而言,在短语排名之前丰富该图的任何方法都将倾向于改善结果。 丰富引理图的可能方法包括共和,以及在一般情况下利用知识图。 例如, 和都提供了推断实体之间链接的方法,并且可以将特定目的的知识图应用于特定的用例。 即使在文本中链接不是明确的情况下,这些也可以帮助丰富引理图。 考虑一段用不同的句子提到cats和kittens的段落:这两个名词之间存在隐含的语义关系,因为外kitten是外cat -因此可以在它
1
使用自然语言处理分析ESG报告 概括 环境,社会和公司治理(ESG)指的是衡量公司或企业投资的可持续性和社会影响的三个主要因素。 这些标准有助于更好地确定公司的未来财务绩效(收益和风险)。 该分析从Internet上以PDF格式的ESG报告中提取文本,对这些信息执行NLP,与WordCloud,TDIDF一起总结了关键的ESG计划,并通过建立潜在狄利克雷分配(LDA)模型来发现主题。 为了使此练习尽可能简单,仅使用了一份ESG报告。 特别是。 鉴于ESG是一个广泛的话题。 不同的公司根据其业务运营和文化侧重于ESG的不同方面。 一个人可以潜在地从各行各业的不同公司获取更多的ESG报告,以捕获相关的ESG主题。 这将在另一分析中尝试。 笔记本 参考
2021-06-03 20:59:54 1017KB JupyterNotebook
1
关键词提取是词语颗粒度的信息抽取的一种重要的需求,即提取文章中重要的词语。 关键词提取的常用方法包括词频统计、TF-IDF和TextRank等。 其中,词频和TextRank属于单文档算法,即只需一篇文章即可提取出其中的关键词;而TF-IDF则属于多文档宣发,需要其他文档的辅助来提取当前文章的关键词。 词频统计的Python实现 词频统计的逻辑是:在一篇文章中,越重要的关键词往往会在文章中反复出现;因为为了解释关键词,作者经常会反复地提及它们。所以通过统计文章中各个词语的出现频率,即可初步地获得关键词。 但是因为齐夫定律,文章中出现频率最高的往往并不是长度较长的关键词,而是标点符号和助词等,因
2021-06-03 16:25:01 59KB hanlp 关键 学习
1
中文命名实体识别ner数据_resume_bio格式 已经清理干净,放心下载,直接可以用各种ner模型训练
2021-06-03 14:36:23 190KB nlp 命名实体识别 中文
1
使用BiLSTM-CRF模型的NER任务的PyTorch解决方案。 此存储库包含BiLSTM-CRF模型的PyTorch实现,用于命名实体识别任务。 代码结构 在项目的根目录,您将看到: ├── pyner | └── callback | | └── lrscheduler.py   | | └── trainingmonitor.py  | | └── ... | └── config | | └── basic_config.py #a configuration file for storing model parameters | └── dataset
2021-06-02 21:29:45 155KB nlp crf pytorch lstm
1
拼写纠错配套资源:该文件记录了很多用户写错的单词和对应正确的单词,可以通过该文件确定每个正确的单词所对应的错误拼写方式,并计算出每个错误拼写方式出现的概率
2021-06-01 15:19:50 441KB python NLP 拼写纠错
1
Natural Language Tool Kit 自然语言处理工具nltk数据包
2021-06-01 14:01:54 47.91MB nlp nltk
1
官网glove.6B的词向量,里面包含了50d、100d、200d、300d常用英文单词的词向量,来源于wiki百科和Gigaword数据集。
2021-06-01 08:42:18 867.45MB glove数据集 nlp 深度学习 预训练词向量
1
对应github:https://github.com/YWP-2019/ALBERT-CRF-for-name-quantity-and-geographic-entity-extraction
2021-05-31 19:07:05 423.76MB NLP NER
1