微博公众意见数据集 不断更新新浪微博舆论数据集(仅用于研究) 更新:一站式科研数据服务平台已全面启动!! 只需单击几下即可实现数据采集,数据分析和数据应用。 欢迎尝试与合作 :clapping_hands: :clapping_hands: :clapping_hands: 介绍 新浪微博是中国最大的公共社交媒体平台。 最新和最受欢迎的社交活动将尽快在微博上公开和讨论。 因此,建立一个实时,全面的微博舆情数据集具有重要意义。 目前,在给定指定关键词和指定期限的情况下,微博推文数据集的构建方法有两种:(1)应用微博提供的高级搜索API; (2)遍历所有微博用户,收集指定时间段的所有推文,然后使用指定的关键字过滤推文。 但是,对于第一种方法,由于微博搜索API的限制,一次搜索的结果最多包含1000条推文,这使得构建大型数据集变得困难。 至于第二种方法,尽管我们可以构建几乎没有遗漏的大规模数据集,但是遍历数十亿微博用户需要非常长的时间和大量的带宽资源。 另外,大量的微博用户
2021-11-23 20:05:20 447KB
1
索尔L-20M Sophos-ReversingLabs 2000万数据集 此存储库中包含的代码产生了可在s3://sorel-20m/09-DEC-2020/baselines 该代码取决于可通过Amazon S3在s3://sorel-20m/09-DEC-2020/processed-data/获得的SOREL数据集;要训​​练lightGBM模型,您可以使用s3://sorel-20m/09-DC-2020/lightGBM-features/提供的npz文件,或使用此处包含的脚本从处理后的数据中提取所需的文件。 如果您在自己的研究中使用此代码或数据,请使用以下引用引用我们的论文:“ SOREL-20M:用于恶意PE检测的大规模基准数据集”,为 : @misc{harang2020sorel20m, title={SOREL-20M: A Large Scale B
2021-11-23 09:28:45 11.93MB Python
1
heart_disease_prediction 心脏病UCI数据集 该实验只是根据心脏病的缺席情况简单地预测心脏病的存在。 1.关于数据集: 该数据集在Kaggle( )上提供。 并且可以从UCI机器学习存储库( )中获得。 数据包含总共14个属性,如下所示。 属性说明 年龄:岁 性别:性别(1 =男性; 0 =女性) cp:胸痛类型 值1:典型心绞痛值2:非典型心绞痛值3:非心绞痛2值:无症状 trestbps:静息血压(入院时以毫米汞柱为单位) 胆汁:血清胆汁,mg / dl fbs :(空腹血糖> 120 mg / dl)(1 =正确; 0 =错误) restecg:静息心电图结果 值0:正常值1:ST-T波异常(T波倒置和/或ST升高或降低> 0.05 mV)值2:按照Estes的标准显示可能或确定的左心室肥大 丘脑:达到最大心率 exang:运动引起的心绞痛(
2021-11-21 10:39:53 130KB JupyterNotebook
1
via2coco 从生成的项目json中,生成类似coco的文件夹 入门 默认运行 node run.js -i viaproject.json 创建带有复制图片的类似可可的数据集 先决条件 您需要安装软件什么东西以及如何通过测试安装它们 node v9.11.1 npm 6.0.1 正在安装 安装部门 npm install 运行测试 运行测试 make 执照 以下 WTFPL
2021-11-20 18:27:01 12KB JavaScript
1
安然电子邮件搜索 有关数据集的信息。 先决条件 节点> 4.0 下载的安然电子邮件数据集 怎么跑 克隆存储库,运行 npm install 下载并提取公共Enron电子邮件数据集。 使用以下方法解析数据集: node parser.js /Users/admin/Downloads/maildir/ 这将在export文件夹中创建一堆.json文件。 然后,确保Elasticsearch在localhost:9200上运行(默认情况下)并运行 node import.js 现在,所有json文件都以弹性方式导入。 要运行搜索界面,请运行 npm start #OR node server.js 并在网络浏览器中导航到localhost:3000 。 享受!
2021-11-18 18:04:11 7KB JavaScript
1
蛋白质网 ProteinNet是用于机器学习蛋白质结构的标准化数据集。 它提供蛋白质序列,结构(和),多个序列比对( ),位置特定的评分矩阵( ),以及标准化的拆分。 ProteinNet建立在两年期评估的基础上,该评估对最近解决但尚未公开获得的蛋白质结构进行盲目预测,以提供推动计算方法学前沿的测试集。 它被组织为一系列数据集,涵盖了CASP 7至12(涵盖十年),以提供一系列数据集大小,从而可以在相对数据贫乏和数据丰富的体制中评估新方法。 请注意,这是一个初步版本。 用于构建数据集的原始数据以及MSA尚未普遍可用。 但是,可应要求提供ProteinNet 12的原始MSA数据(4TB)
1
奥运探索 探索一些基于奥运会的数据集。
2021-11-17 15:23:47 479KB R
1
vatsys澳大利亚数据集 vatSys的默认配置文件数据集 必须为每个发行版更新Profile.xml 数据定义层次结构 vatSys XML文件引用的所有WAYPOINT,NAVAID,AIRPORT,SID和STAR名称的定义按以下顺序搜索: Airspace.xml 导航图数据 纬度长格式 vatSys接受任何有效的坐标。 Latitude and Longitude in Degrees: ±DD.DDDD±DDD.DDDD (eg +12.345-098.765) Latitude and Longitude in Degrees and Minutes: ±DDMM.MMMM±DDDMM.MMMM (eg +1234.56-09854.321) Latitude and Longitude in Degrees, Minutes
2021-11-16 18:59:35 1.13MB vatsim vatsys-dataset vatpac
1
印刷数字图像数据集。 版本:v0.01 Beta 包含约3000张数字打印数字数据集的图像。 每个图像的尺寸均为28x28并且是灰度的。 该数据集是专为数独数位分类而创建的,因此它显示0(零)的空白图像。
2021-11-16 16:56:08 3.64MB JupyterNotebook
1
健康 分析各种与健康相关的数据集。 当前项目: -博客文章的代码和数据 -流感病例可视化 项目Tycho小儿麻痹症可视化 按邮政编码映射澳大利亚污染 新冠肺炎 -交互式诊断测试计算器 -佛罗伦萨夜莺的玫瑰走势图
2021-11-16 11:42:22 12.83MB HTML
1