使用说明 大部分超参数可以在 hyper_parameters.py 文件中进行设置。 训练 设置完参数之后,运行 train.py 文件。 简单测试效果 运行 summarize.py 文件,按照提示输入原文,可根据训练结果调整测试时加载的模型轮次。
2025-05-01 21:21:43 202KB 人工智能 深度学习 transformer
1
基于CNN的文本分类代码包,​CNN(Convolutional Neural Network)即卷积神经网络,本质上,CNN就是一个多层感知机,只不过采用了局部连接和共享权值的方式减少了参数的数量,使得模型更易于训练并减轻过拟合。在文本分类中,参考论文Convolutional Neural Networks for Sentence Classification https://arxiv.org/abs/1408.5882中的模型 ​对于单词的嵌入向量,有四种处理方法 1. 使用随机嵌入并在训练时进行更新; 2. 使用已有的嵌入向量,在训练时不作为参数更新; 3. 使用已有的嵌入向量,在训练时作为参数更新; 4. 结合2和3,将单词嵌入到两个通道的嵌入向量中,其中一个嵌入向量为固有属性,另一个嵌入向量作为参数进行更新。
2025-04-29 21:46:01 18.86MB nlp 卷积神经网络 机器学习
1
电信诈骗中文数据集-8分类
2025-04-28 10:10:43 2.83MB 中文数据集 文本分类
1
这个模型是一个基于MLP的简单文本情绪分类模型,使用了线性层、激活函数和Softmax函数构建网络结构。通过交叉熵损失函数进行训练,并使用Adam优化算法自动调节学习率。训练过程中记录了损失值,并在每个3000步后对校验集进行验证。该模型可以用于对文本情绪进行分类,并评估模型的准确率和损失值。其中包含数据收集、数据预处理、构建模型、训练模型、测试模型、观察模型表现、保存模型
2025-04-27 20:17:51 595KB
1
BERT和RoBERTa在文本语义相似度等句子对的回归任务上,已经达到了SOTA的结果。但是,它们都需要把两个句子同时喂到网络中,这样会导致巨大的计算开销。这种结构使得BERT不适合语义相似度搜索,同样也不适合无监督任务(例如:聚类)。Sentence-BERT(SBERT)网络利用孪生网络和三胞胎网络结构生成具有语义意义的句子embedding向量,语义相近的句子其embedding向量距离就比较近,从而可以用来进行相似度计算(余弦相似度、曼哈顿距离、欧式距离)。这样SBERT可以完成某些新的特定任务,例如相似度对比、聚类、基于语义的信息检索。
2025-04-27 16:39:58 30.17MB bert 文本相似度 embedding
1
简单速度运行计时器 用于OBS的lua脚本,为定时内容(马拉松,超速运行等)提供热键控制的文本计时器。 笔记 您可以取消暂停计时器。 这将导致它向前快照,就好像从未暂停过一样。 这是为了解释马拉松中的意外停顿。 另外,您只能在暂停时重置计时器。 这有助于防止马拉松中的意外重置。 参考
2025-04-24 10:14:15 3KB Lua
1
"大数据背景下微博文本情感分析研究——基于Python实现情感词典与机器学习算法(LSTM、SVM)的支持向量机技术",大数据分析项目python--微博文本情感分析 研究思路:基于情感词典基于机器学习LSTM算法支持向量机(SVM) 包含内容:数据集文档代码 ,核心关键词:大数据分析项目; 微博文本情感分析; 情感词典; LSTM算法; 支持向量机(SVM); 数据集; 文档; 代码。,基于情感词典和机器学习算法的微博文本情感分析大数据项目 随着大数据时代的到来,社交媒体平台如微博上产生的海量文本数据成为研究者关注的热点。在众多研究方向中,文本情感分析因其能够识别、挖掘和分析大量文本中的主观信息而显得尤为重要。本研究旨在探讨如何通过Python实现的情感词典和机器学习算法来对微博文本进行情感分析。研究中所使用的机器学习算法主要包含长短期记忆网络(LSTM)和支持向量机(SVM),这两种算法在文本分析领域具有代表性且各有优势。 情感词典是情感分析的基础,它包含了大量具有情感倾向的词汇以及相应的极性值(正向或负向)。在微博文本情感分析中,通过对文本中词汇的情感倾向进行判断,并将这些词汇的极性值加权求和,从而确定整条微博的情感倾向。在实际应用中,情感词典需要不断更新和优化,以覆盖更多新兴词汇和网络流行语。 LSTM算法作为深度学习的一种,特别适合处理和预测时间序列数据,因此在处理时间上具有连续性的文本数据方面表现出色。LSTM能够有效地捕捉文本中长距离的依赖关系,这对于理解复杂语句中的情感表达至关重要。通过训练LSTM模型,可以建立微博文本和情感极性之间的映射关系,从而达到自动进行情感倾向分类的目的。 支持向量机(SVM)是一种二分类模型,其基本模型定义在特征空间上间隔最大的线性分类器,间隔最大使它有别于感知机;SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM在处理小规模数据集时表现出色,尤其在特征维度较高时仍能保持良好的性能。在微博文本情感分析中,SVM被用来对经过特征提取的文本数据进行情感倾向的分类。 本研究的数据集是通过爬虫技术从微博平台上抓取的大量微博文本,包括用户发布的内容、评论、转发等信息。这些数据经过清洗和预处理后,形成了适合进行情感分析的结构化数据集。数据集的构建是情感分析研究的基础,直接影响到后续模型训练的效果和分析结果的准确性。 研究文档详细记录了项目的研究思路、实现方法、实验过程以及结果分析。文档中不仅阐述了情感词典和机器学习算法的理论基础,还包括了如何应用这些技术来实现微博文本情感分析的详细步骤和关键代码。此外,文档中还探讨了在实际应用中可能遇到的问题和挑战,以及如何解决这些问题的策略。 代码部分则是本研究的实践工具,包含了构建情感词典、数据预处理、模型训练和评估等关键步骤的Python代码。代码部分不仅展示了如何将理论转化为实践,也提供了可复现的研究实例,方便其他研究者在本研究基础上进行进一步的探索和改进。 本研究通过构建情感词典和应用机器学习算法(LSTM和SVM),对微博文本进行情感分析,旨在通过大数据技术揭示微博文本中的情感倾向,为社交媒体内容分析、舆情监控和市场分析等领域提供有力的技术支持和应用参考。通过本研究,可以更好地理解和利用微博平台上的海量文本数据,为相关领域的问题提供解决方案。
2025-04-20 21:04:42 792KB xbox
1
tinymce 富文本编辑器导出插件, 支持导出word 导出pdf,可通过配置修改下载文件名称
2025-04-15 10:56:32 275KB tinymce tinymce-plugin
1
资源名称:Transformer模型在评论文本分类任务的应用 资源描述: 在当今信息爆炸的时代,文本数据的分析与处理变得尤为关键。评论文本分类,作为自然语言处理(NLP)领域的一项基础任务,对于理解消费者情感、自动化客户服务、内容监管等方面有着重要意义。本资源提供了一个基于Transformer模型的文本分类框架,能够高效地对评论文本进行情感分析和分类。 本项目采用了先进的Transformer架构,这一架构自2017年由Google的研究者提出以来,已成为处理各类NLP任务的金标准。Transformer的核心优势在于其自注意力(Self-Attention)机制,能够在处理文本数据时,无需考虑数据的序列性,从而更好地捕捉语境中的依赖关系。 主要特点包括: 高效的文本处理能力:通过自注意力机制,模型可以并行处理序列数据,显著提升处理速度和效率。 深度语义理解:Transformer通过多层自注意力和位置编码,深入挖掘文本中的细微语义。 广泛的适用性:模型训练完成后,可广泛应用于产品评论、电影评论、社交媒体评论等多种文本类型的情感分类。 易于集成和扩展:提供完整的代码和文档。
2025-04-14 11:20:04 1.31MB transformer 情感分析 python 毕业设计
1
基于Python制作的字幕生成程序,TXT文本文件文字提前断行,输入语速参数及停顿时间,可以自动生成srt文件,如果视频语速平稳,准确率会很高,否则,生成的srt需要做微调。 使用方法: 命令行运行:python3 srt.py
2025-04-13 21:05:38 2KB python
1