Data Mining: A Tutorial-Based Primer, Second Edition provides a comprehensive introduction to data mining with a focus on model building and testing, as well as on interpreting and validating results. The text guides students to understand how data mining can be employed to solve real problems and recognize whether a data mining solution is a feasible alternative for a specific problem. Fundamental data mining strategies, techniques, and evaluation methods are presented and implemented with the help of two well-known software tools.,解压密码 share.weimo.info
2021-12-13 10:36:20 16.03MB 英文
1
贷款批准预测:贷款申请数据分析
2021-12-12 19:12:57 179KB python data-science machine-learning data-mining
1
数据挖掘项目 我在复旦大学数据挖掘过程中在R中所做的数据挖掘项目(内容为中文!) 这确实是一个“了不起的”课程...
2021-12-12 17:32:18 13.4MB HTML
1
马来语数据集,我们收集了马来西亚语料库! 该存储库用于存储和。 我们将不断更新此存储库。 我们如何收集数据集? 对于新闻,文章和字幕,我们使用搜寻器,您可以从此处获取代码 。 对于Bahasa,大多数情况下我们使用Google Translator,您可以从此处获取代码 。 使用社交媒体,我们使用爬虫从Twitter,Facebook和Instagram捕获大多数实时数据,因此我们仅使用Elasticsearch查询进行搜索。 对于语音,我们使用Macbook Air 2013附带的有线麦克风进行录制,同时阅读了bahasa维基百科的一些随机文本。 我们请一些语言学家来监督。 词汇->从翻译中学习不足->自信学习->来自人类的5次迭代。 执照 根据知识共享署名4.0国际许可,可以下载Malay-Dataset用于研究。 这项工作是根据。 仅使用此标签标记的数据 受此许
2021-12-12 14:25:28 236.96MB text-mining corpus malaysia bahasa
1
Big_Data_Project-伪造新闻检测 在这个项目中,我们展示了使用机器学习算法进行文本分类。 我们致力于对给定的新闻文章是假的还是真实的进行分类。 数据清理和预处理: 删除了文本中的特殊字符拼写检查了所有文档删除了停用词对文档进行矢量化处理。 向量化 对于矢量化,我们使用了-计数矢量化器,TFIDF矢量化器,哈希矢量化器。 分类 对于分类目的,我们使用了:多项朴素贝叶斯,支持向量机(LinearSVC),PassiveAgressiveClassifier。 我们比较了矢量化器和分类器的性能。 最后,我们使用集成模型来获得更高的精度。 我们使用scikit-learn最大投票分类器
1
Data_mining_HW5-假新闻检测2 同HW4针对假新闻作分析,预测一则新闻是否可靠 资料集共有两个: 1:假0:真分别利用RNN与LSTM对“ train.csv”的资料建模,对“ test.csv”测试计算准确度 使用Keras或Tensorflow来完成 注:“ test.csv”的标签在“ sample_submission.csv”里面 作业流程: 资料前处理: 一种。读取资料,利用分割符号切割字串,建立train&test之DataFrame b。去除停顿词 C。文字转向量(Tfidf,Word2vec…等) 建模 一种。分别用RNN与LSTM对train.csv的资料进行建模,自行设计神经网路的架构 b。加入降落图层设置降落参数进行比较 C。 plot出训练过程中的精度与损耗值变化 评估模型 一种。利用“ text.csv”的资料对2.所建立的模型进行测试,并计
2021-12-08 17:17:03 9.06MB Python
1
mining proxy
2021-12-08 11:11:22 5.48MB mining proxy
1
Bitcoin-mining-proxy 是比特币挖矿机的多池、多 worker 代理,支持长轮询和故障转移 要求: Apache (2.2 or newer recommended). PHP 5.3 or newer. MySQL (5.1 or newer recommended for best performance).
2021-12-08 10:49:47 71KB 开源项目
1
股市动荡,集群波动,基于情绪和新闻报道的价格波动很普遍。 贸易商使用各种公开可用的信息来预测营销决策。 本文使用对可公开获得的新闻报道的情感分析,为交易者提供了有关股票交易的建议。 它基于一个假设,即新闻文章对股票市场有影响,以此假设为基础,我们研究了新闻与股票趋势之间的关系,并证明了负面新闻对股票市场具有持续影响。 为了证明这一假设,使用了半监督学习技术来构建新闻分类的最终模型。 研究表明,以TF-IDF为特征的SVM在进一步分析中表现良好。 预测模型的准确性超过90%,与股票的退货标签具有52%的相关性。
2021-12-07 13:43:07 617KB Text Mining Human Sentiments
1
由于学生的成功率反映了教育组织的成功,因此学生成功率不断提高的趋势成为所有教育组织的目标。 除此之外,学生完成中学后接受高等教育的意愿是教育组织最重要的目标之一。 许多原因会影响这种意愿,揭示这些原因可能会增强学生的意愿。 数据挖掘工具(尤其是决策树算法)可以被认为是找到隐藏模式以实现这些目标的最佳选择。 本工作中使用的实验数据集是由米尼奥大学的 Paulo Cortez 和 Alice Silva 收集和分析的两门课程(数学(395 个实例)和葡萄牙语(拥有 659 个实例的葡萄牙语课程))的葡萄牙学生的数据集,葡萄牙。 在这项工作中应用和试验了三种决策树算法(J48、RepTree 和 Hoeffding Tree(VFDT))。 结果表明,J48算法最适合对学生完成高等教育和课程成功的意愿进行分类和预测。
2021-12-06 10:04:50 809KB Educational Data Mining
1