如今,大多数数据科学家和工程师都依赖有质量标记的数据来训练机器学习模型。但是,手工构建训练集既耗时又昂贵,导致许多公司的ML项目尚未完成。还有一个更实际的方法。在这本书中,Wee Hyong Tok, Amit Bahree和Senja Filipi向您展示了如何使用弱监督学习模型创建产品。 您将学习如何使用来自Snorkel的弱标记数据集构建自然语言处理和计算机视觉项目,Snorkel是斯坦福人工智能实验室的一个副产品。因为许多公司一直在进行ML项目,但从来没有超越他们的实验室,所以这本书还提供了如何交付您所构建的深度学习模型的指南。
2022-04-21 17:06:50 12.14MB 机器学习
对NER的监管不力 与ACL 2020接受的论文“没有标签数据的命名实体识别:弱监督方法”相关的源代码。 要求: 您首先应该确保安装以下Python软件包: spacy (版本> = 2.2) hmmlearn snips-nlu-parsers pandas numba scikit-learn 您还应该在Spacy中安装en_core_web_sm和en_core_web_md模型。 要在ner.py运行神经模型,还需要安装pytorch , cupy , keras和tensorflow 。 要运行基线,您还需要安装snorkel 。 最后,您还需要下载以下文件并将
1
cleanlab:机器学习的标准包,带有嘈杂的标签并在Python中查找标签错误的数据
1