glint360k_cosface_r50_fp16_0.1.pth
2023-03-16 23:05:19 166.59MB windows 10
1
FP16 仅标头库,用于向/从半精度浮点格式转换 特征 支持IEEE和ARM替代半精度浮点格式 财产转换无限和NaN 正确转换非正规数,即使在没有非正规支持的系统上 仅标头的库,无需安装或构建 与C99和C ++ 11兼容 全面覆盖了单元测试和微基准测试 致谢 该库由佐治亚理工学院的开发。 FP16是位于的HPC车库实验室的一项研究项目,该实验室位于佐治亚理工学院,计算学院,计算科学与工程学院。 本资料基于美国国家科学基金会(NSF)奖号1339745支持的工作。本资料中表达的任何观点,发现,结论或建议均为作者的观点,不一定反映NSF的观点。
2023-02-12 10:29:34 86KB floating-point half-precision fp16 C++
1
A Guide to Tesla’s Configurable Floating Point Formats & Arithmetic 本标准规定了用于深度学习神经网络训练的计算机编程环境中新的 8 位和 16 位二进制浮点算法的特斯拉算法格式和方法。 本标准还规定了异常条件及其状态标志。 符合该标准的浮点系统的实现可以完全用软件、完全用硬件或软件和硬件的任意组合来实现。
2022-09-23 21:05:33 683KB 浮点数 fp8 fp16 tesla
1
内容:vs+libtorch(环境配置以及部署),包含batch推理,FP16推理。 适合人群:libtorch初学者,模型部署应用者, 使用场景:工业缺陷检查或学生学习
2022-07-22 18:06:56 1.61MB libtorch 深度学习部署 batch推理 FP16推理
1
摘要:通过使用Achronix Speedster7t FPGA中的机器学习加速器MLP72,开发人员可以轻松选择浮点/定点格式和多种位宽,或快速应用块浮点,并通过内部级联可以达到理想性能。  神经网络架构中的  之一就是卷积层,卷积的  基本操作就是点积。向量乘法的结果是向量的每个元素的总和相乘在一起,通常称之为点积。此向量乘法如下所示:  图 1 点积操作  该总和S由每个矢量元素的总和相乘而成,因此  本文讲述的是使用FP16格式的点积运算实例,展示了MLP72支持的数字类型和乘数的范围。  此设计实现了同时处理8对FP16输入的点积。该设计包含四个MLP72,使用MLP内部的级联路径连
1
MMDet到张量 该项目旨在将mmdetection模型转换为tensorrt模型end2end。现在专注于对象检测。面膜的支持是实验性的。 支持: fp16 int8(实验) 批量输入 动态输入形状 不同模块的组合 深度支持 欢迎提供任何建议,错误报告和建议。 执照 该项目是根据。 要求 mmdet> = 2.3.0 重要的! 设置环境变量(在〜/ .bashrc中): export AMIRSTAN_LIBRARY_PATH= ${amirstan_plugin_root} /build/lib 安装 主持人 git clone https://github.com/grimoire/mmdetection-to-tensorrt.git cd mmdetection-to-tensorrt python setup.py develop 码头工人 构建docker镜像(注意Te
2022-02-19 23:27:54 135KB inference ssd faster-rcnn object-detection
1
tensorflow检测模型
2022-01-09 09:00:18 9.53MB tensorflow 模型
1
张量FFT 利用张量核,针对fp16数据的FFT算法的实现,以加快处理速度
2021-11-19 21:00:18 19KB Cuda
1
opencv_face_detector_uint8.pb和 res10_300x300_ssd_iter_140000_fp16.caffemodel 下载
2021-09-12 13:33:34 6.45MB opencv caffe
1
OpenCV实现的SSD人脸检测器,基于深度学习框架Caffe训练的模型。
2021-07-28 18:09:57 5.1MB caffe opencv
1