数据集 此存储库包含用于下载,预处理和数字化流行的机器学习数据集的脚本。 在整个项目中,我通常会发现自己重写了相同的代码行以标准化,规范化或其他化数据,对分类变量进行编码,解析出要素的子集以及其他杂项。 为了减轻重复使用的麻烦,此存储库使用了模板样式的定义,该定义用于应如何解析数据集,而库则负责其余部分。 对于加载数据,它支持numpy.genfromtxt可以使用和arff任何内容(来自 )。 为了处理数据,在utils/scale.py和utils/preprocess.py有许多流行的scikit-learn preprocessing转换器的包装器。 主要的魔力可以在utils/handler.py找到; 在底部,提供了示例模板。 参数为: 争论 描述 header 标题行是否存在(将被删除) include 只加载指定的列 label 标签索引 norm unit
2021-10-06 17:18:08 26.14MB machine-learning numpy phishing python3
1
从众多无序结构中筛选对称性最高的三种结构
2021-10-04 13:00:20 1KB Supercell mcsqs
coursera的吴恩达的课编程练习所需的所需包和数据,可以方便学员自己在本地练习
2021-09-29 14:05:31 2.68MB lr_utils load_dataset datasets
1
废物数据集审查 包含任何垃圾,垃圾,废物和垃圾的数据集列表。 在项目期间创建 如今,每年生产超过3亿吨塑料。 塑料无处不在,我们在日常生活中不断使用它。 检测废物项目的想法是使用人工智能检测环境中的塑料废物。 我们的解决方案将适用于视频和摄影。 我们的目标是永远使用AI。 请访问以查看对涉及环境中垃圾问题的论文,项目和其他资源的更广泛的评论。 贡献 随意添加有关新数据集简短描述的问题或创建拉取请求-将新数据集添加到表中或填写缺少的描述。 概括 名称 编号类别 编号子类别 编号图片 注解 评论 网站 描述 垃圾桶1.0 3 34 7212 实例分段 水下图像 :check_mark: 垃圾桶-ICRA19 3 34 5 700 侦查 水下图像 :check_mark: 塔可 28岁 60 1500 分割 野外浪费 :check_mark: TACO bboxes 7 60 在制品 侦查 野外浪费 在制品 :check_mark:
2021-09-22 11:29:08 16.11MB
1
CMU-Multimodal SDK版本1.2.0(mmsdk) CMU-Multimodal SDK提供了一些工具,可以轻松加载知名的多峰数据集并快速构建神经多峰深度模型。 因此,SDK包含两个模块:1)mmdatasdk:使用计算序列下载和处理多峰数据集的模块。 2)mmmodelsdk:利用复杂神经模型以及用于构建新模型的层的工具。 先前论文中的融合模型将在这里发布。 这里的所有数据集都是使用SDK处理的(甚至是使用SDK V0的old_processed_data文件夹)。 您可以通过在数据集上调用以下函数来获取项目中使用的计算序列的引用: >> > mydataset . bib_citations ( open ( 'mydataset.bib' , 'w' )) >> > mycompseq . bib_citations ( open ( 'mycompseq.bib
2021-09-10 10:51:12 307KB sdk dataset alignment multimodal-datasets
1
SIXray:用于重叠图像中禁止物品发现的大规模安全检查X射线基准 要求 推荐使用: conda env create -f environment.yml Python3.5 火炬:0.3.1 软件包:torch,numpy,tqdm 用法 克隆CHR存储库: git clone https://github.com/MeioJane/CHR.git 运行培训演示: cd CHR/ bash CHR/runme.sh 检查站 如果您只想测试图像,则可以在此处下载。 引文 如果您在研究中使用该代码,请引用: @INPROCEEDINGS { Miao2019SIXray ,
1
数据集转换脚本(工具向) News: 最近开始论文实验,需要重新整理一下数据集,顺便整理一下这个代码仓库。 简介 仓库中的脚本用于将Labelme标注的数据转换为PASCAL VOC格式或MS COCO格式的标准数据集,便于直接利用现有的训练框架进行训练。 使用须知: 脚本写的其实并不复杂,有基础的同学可以过一下脚本的流程,确保在自己使用的标注数据或数据集上能正常使用,有需要调整的地方也可以自己调整下,可以省掉一些Debug的无用功夫。 举例说明: 数据集不同,计算BBOX左上角和右下角的Points下标也不一定相同,需要确认下。 标注工具和常见的两种数据集格式 Labelme是我用的标注工具,对图像进行多种类型的标注,可以直接得到json文件。GitHub地址如下: PASCAL-VOC和MS-COCO是两个大型的开源数据集,其数据集的标注形式成为了通用的标注方式,常见的视觉模型的训练
1
ImageNet下载器 这是ImageNet数据集下载器。 您可以通过指定所需的类以及每个类需要多少个图像来从ImageNet的子集创建新的数据集。 这是通过使用ImageNet API提供的图像URL来实现的。 我更加详细地介绍了如何以及为何编写该工具。 另外,我对帖子中ImageNet URL的当前状态进行了一些分析。 该软件是用Python 3编写的 用法 以下命令将随机选择其中包含至少200张图像的100个ImageNet类,然后开始下载: python ./downloader.py \ -data_root /data_root_folder/imagenet \ -number_of_classes 100 \ -images_per_class 200 以下命令将从每个选定的类中下载500张图像: python ./downloader.py
2021-09-06 16:34:01 1.55MB Python
1
This book evolved from material developed over several years by Anand Rajaraman and Jeff Ullman for a one-quarter course at Stanford. The course CS345A, titled “Web Mining,” was designed as an advanced graduate course, although it has become accessible and interesting to advanced undergraduates. When Jure Leskovec joined the Stanford faculty, we reorganized the material considerably. He introduced a new course CS224W on network analysis and added material to CS345A, which was renumbered CS246. The three authors also introduced a large-scale data-mining project course, CS341. The book now contains material taught in all three courses.
2021-09-05 17:46:32 2.91MB Mining of Massive Datasets.pdf
1
tensorflow_datasets 数据 imdb_reviews/subwords8k,将该文件解压到文件夹中:C:\Users\XXX\tensorflow_datasets\imdb_reviews\
2021-09-01 09:13:40 35.08MB tensorflow datasets imdb_reviews subwords8k
1