Real_Time_DataMining_Sortware 一款能实时进行文本挖掘的软件,不占用多余的存储空间,直接将采集后的数据集中存储在本地txt中,运用本软件无需进行大量的手动翻页操作,输入对应的店铺链接即可对民宿进行分析包含接结构化数据的可视化和非结构化UGC的情感分析,包含数据的实时采集/数据清洗/结构化保存/UGC数据主题提取/情感分析/后结构化可视化等技术的综合性演示demo。基于在线民宿UGC数据的意见挖掘项目,包含数据挖掘和NLP相关的处理,负责数据采集、整句切分、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线UGC进行数据挖掘并可视化,对比顾客直接打分的结果来看,运用机器学习的情感分析方法更能挖掘到详细的顾客意见和对应的合理评分。 软件包含数据采集(txt_analys
2023-03-18 01:22:15 1.86MB nlp demo sentiment-analysis data-spider
1
Customer_satisfaction_Analysis 结果整合 Demo 演示 基于用户 UGC 的在线民宿满意度挖掘,负责数据采集、主题抽取、情感分析等任务。开发的目的是克服用户打分和评论不一致,实现了在线评论采集和用户满意度分析。 主要功能包括在线原始评论采集、主题聚类、评论情感分析与结果可视化展示等四个模块,如下所示。 提取后的民宿地址和在线评论等信息如下。 搭建了百度地图 POI 查询入口,可以进行自动化的批量查询地理信息。 通过高频词可视化展示,归纳出评论主题。 构建了基于在线民宿语料的 LDA 自动化主题聚类模型,利用主题中心词能找出对应的主题属性字典,并使用用户打分作为标注,然后通过多种分类模型,选用最优模型对提出的评价主体 进行情感分析,针对主题属性表进行主题提取后的文本进行情感分析,分别得出当前主题对应的情感趋势,横坐标为所有关于主题为“环境”的情感得分,纵坐标为
1
随着互联网的发展,用户倾向于在购物、旅游、用餐之前参考线上评论.之后,他们也会发表评论来表达自身意见.线上评论越来越具有价值.评论对用户决策的重要导向作用催生了虚假评论.虚假评论,指用户由于利益、个人偏见等因素发布的不符合产品真实特性的评论.这些虚假评论语言上模仿真实评论,消费者很难识别出来.国内外学者综合运用自然语言处理技术来研究虚假评论检测问题.从特征工程的角度分析,虚假评论检测方法可以分为三类:基于语言特征和行为特征的方法、基于图结构的方法、基于表示学习的方法.主要描述了检测的一般流程,归纳了三类研究方法常用的特征,比较了方法的优缺点,并且介绍了研究常用的数据集.最后探讨了未来研究方向.
1
片段 Snippext是从用户生成的内容(例如,在线评论)中挖掘意见和客户体验的提取管道。 论文:苗正杰,李玉良,王晓兰,tanh望秋,“ Snippext:具有增强数据的半监督意见挖掘”,载于WebConf(WWW)2020 要求 Python 3.7.5 PyTorch 1.3 HuggingFace变形金刚 带有em_core_web_sm模型的空间 NLTK(停用词,词网) Gensim NVIDIA Apex(FP16培训) 安装所需的软件包 conda install -c conda-forge nvidia-apex pip install -r requirements.txt 下载预训练的BERT模型和word2vec模型(用于数据增强): wget https://snippext.s3.us-east-2.amazonaws.com/finetuned
2021-09-17 17:13:02 13.75MB Python
1
意见挖掘中用于方面提取的自动规则选择
2021-03-16 14:08:58 421KB 研究论文
1