搜索【视觉】的结果

【计算机视觉】基于局部加权引导滤波的低延迟噪声感知色调映射算子：面向FPGA的实时HDR视频处理系统设计

内容概要：本文提出一种面向硬件实现的低延迟噪声感知色调映射算子（TMO），用于将高动态范围（HDR）图像高效压缩为低动态范围（LDR）图像，同时保留视觉细节并抑制噪声。针对现有TMO在嵌入式场景中延迟高、噪声放大等问题，文章提出三项核心技术：基于压缩直方图的K-th最大/最小值快速估计，大幅降低裁剪模块的延迟与缓存需求；硬件导向的局部加权引导滤波（HLWGF），通过去除系数平均、引入对称局部权重，提升边缘保持能力并减少光晕伪影；结合人眼视觉系统（HVS）特性的自适应噪声抑制机制，有效控制暗部噪声放大。整个系统在FPGA上实现1080P@60FPS实时处理，延迟仅为60.32μs，且在平滑度、资源占用和精度方面表现优越。; 适合人群：从事图像处理、嵌入式系统开发、FPGA/ASIC设计的研发人员，尤其是关注实时HDR处理的应用开发者。; 使用场景及目标：①自动驾驶、医疗成像、车载显示等需要实时HDR到LDR转换的嵌入式视觉系统；②追求低延迟、低噪声、高画质的硬件级图像处理方案设计；③学习如何将算法优化与硬件实现相结合，提升系统整体性能。; 阅读建议：此资源强调算法设计与硬件实现的协同优化，建议结合文中模块流程图、实验数据与消融分析深入理解各组件作用，并参考硬件细节（如定点量化、流水线设计）进行实际系统搭建与验证。

2026-03-12 11:05:57 1004KB Tone Mapping Operator FPGA

1

OAK相机深度教程[可运行源码]

本文详细介绍了OAK相机的深度使用教程，包括设备连接、设置、运行demo脚本以及使用自定义模型等内容。教程涵盖了从基础到高级的操作步骤，适合刚接触OAK相机的用户。文章还提供了多种模型的配置和使用方法，帮助用户快速上手并实现各种功能。此外，教程还介绍了如何编译MyriadX blob、配置自定义模型以及使用回调文件进行高级定制。最后，文章提供了后续学习资源和参考资料，方便用户进一步探索OAK相机的功能。 OAK相机是一种集成深度感知功能的相机，适用于计算机视觉和嵌入式开发领域，它利用了MyriadX芯片的强大AI处理能力。本文全面地向初学者展示了如何深入使用OAK相机，内容包含了从设备连接开始的初级操作，到设置、运行内置demo脚本，再到应用自定义模型的高级技巧。文章不仅提供了基础操作的指南，还详细解释了使用不同模型进行计算机视觉任务的方法。特别地，教程还指导读者如何编译MyriadX blob文件，这是将AI模型部署到OAK相机上的重要步骤。此外，读者将学习到如何通过编写回调文件对OAK相机进行高级定制，以满足特定场景的需求。文章尾部还罗列了各种学习资源和参考资料，方便用户进一步了解和掌握OAK相机的高级功能和应用。对于希望充分利用OAK相机进行计算机视觉项目的开发者来说，本教程是一个宝贵的资源。它不仅包括了操作指南，还有对应的代码示例和解释，使得理解和操作更加直观易懂。学习完本教程后，用户将能够熟练地操作OAK相机，并利用它的深度学习能力来处理各种视觉数据，实现例如人脸识别、物体检测、场景分割等复杂任务。对于那些希望深入学习AI硬件和嵌入式系统开发的用户来说，本教程同样是一个良好的起点。通过实践本教程的内容，用户将能够更好地理解AI硬件的工作原理和应用方法。另外，通过本教程的学习，用户还可以了解到如何有效地整合和利用现有的技术资源，如社区提供的模型和开发工具，从而加速开发流程并提高开发效率。这不仅有助于提升项目成果的质量，还能在不断迭代和优化中积累宝贵的经验。对于团队开发者而言，本文所提供的知识和技巧可以作为团队内部培训的教材，确保每个成员都能够高效地参与到项目的各个阶段。这篇教程对于任何希望掌握OAK相机使用、扩展计算机视觉项目应用范围，并且对AI硬件感兴趣的学习者而言，都是一份不可多得的资源。它不仅提供了详尽的操作指南，还涵盖了深度学习模型的应用、MyriadX芯片的使用以及丰富的学习材料，为用户提供了全面的技术支持和深入学习的平台。

2026-03-12 09:47:47 16KB 计算机视觉 嵌入式开发

1

FactoryIO智能仓储＋视觉分拣＋物流装配仿真，程序流程可以参照图片文字表达使用梯形图与SCL语言＋先入先出算法，全部封装成单独的模块，需要增加相同的设备只需要填相应的IO信号，内部逻辑不需要再

FactoryIO智能仓储＋视觉分拣＋物流装配仿真，程序流程可以参照图片文字表达使用梯形图与SCL语言＋先入先出算法，全部封装成单独的模块，需要增加相同的设备只需要填相应的IO信号，内部逻辑不需要再写，通俗易懂，写有详细注释，起到抛砖引玉的作用，比较适合有动手能力的入门初学者，和入门学习，程序可以无限扩展梯形图＋结构化编程。程序框架已经搭建好，Factory IO万能框架软件环境： 1、西门子编程软件：TIA Portal V16（博图V16） 2、FactoryIO 2.50 内容清单： 1、FactoryIO中文说明书+场景模型文件+博途v16软件＋FactoryIo软件。 2、博图V16PLC程序(源码)

2026-03-11 08:14:14 468KB paas

1

DaisyDiff:Java 中 HTML 的视觉比较

这是DaisyDiff的Java维护项目。最初的提交是对1.2 版的检出。有关更多文档，请参阅。警告对这个存储库的维护现在严格限于关键的安全修复。如果您需要其他类型的维护，请检查存储库的或自己分叉。独立使用 java -jar daisydiff-1.2-NX4-SNAPSHOT-jar-with-dependencies.jar [oldHTML] [newHTML] [optional arguments] 可选参数： --file = [文件名]-将输出写入指定的文件。 --type=[html/tag] - 使用 html（默认）差异算法或标签差异。 --css=[cssfile1;cssfile2;cssfile3] - 添加外部 CSS 文件。 --output = [html / xml]-编写html（默认）或xml输出。 --q - 生成更少的

2026-03-10 22:13:03 671KB java html text-processing comparison-tool

1

IMU-预积分推导手稿

IMU-预积分推导手稿详细解析了在ORB-SLAM3这一计算机视觉领域的著名框架中，IMU（惯性测量单元）预积分技术的数学基础和推导过程。预积分技术是结合IMU传感器数据与视觉数据进行定位和地图构建的关键技术之一。IMU设备能够提供加速度和角速度的数据，但是这些数据会因为IMU自身的误差、噪声以及动态环境的影响，而产生累积误差，这对实时定位和构建高精度地图是非常不利的。因此，需要采用一种有效的预积分算法来解决这个问题。预积分算法的核心思想是在相邻两个视觉帧之间进行积分计算，以获得这段时间内IMU观测值的累计效果。这种技术的优势在于它能够将连续的IMU读数转化为一个离散的增量值，即预积分值，从而可以与视觉数据一起用于后端优化。在ORB-SLAM3系统中，结合IMU预积分的视觉惯性里程计（Visual-Inertial Odometry，VIO）技术能够显著提高定位的精度和鲁棒性。手稿中对IMU预积分的推导涉及到了多方面的数学知识，包括但不限于线性代数、微分方程、概率论和优化理论。推导过程中会详细解释如何从IMU的基本运动学模型出发，通过离散化处理和误差建模来构建预积分的数学模型。此外，还会讨论如何利用这个模型来进行状态估计，即如何利用IMU预积分的观测值来调整和优化系统的状态变量，以获得更加准确的运动轨迹和位置信息。文档中还会详细解析IMU预积分在实际应用中可能出现的问题，如传感器偏差校准、动态环境适应性、以及计算资源的优化使用等。针对这些问题，文档可能会提供一些实用的解决方案或者优化策略，进一步提升IMU预积分技术在ORB-SLAM3系统中的效能。手稿的另一大特点是深入浅出，即使是复杂的数学推导和概念，也会尽量用易于理解的方式表达。这对于初学者来说尤为重要，因为它降低了理解复杂技术的门槛。同时，对于经验丰富的研究者而言，详细的推导过程和实用的解决方案也能提供足够的深度和价值。 ORB-SLAM3作为一种先进的视觉SLAM（同步定位与地图构建）系统，它在机器人导航、自动驾驶、增强现实等领域有着广泛的应用。IMU预积分技术是其核心技术之一，因此掌握这一技术对于理解和应用ORB-SLAM3具有重要的意义。通过这份手稿的深入分析和推导，我们可以更好地理解IMU预积分在实际应用中的工作原理和优势所在，为解决实际问题提供理论支持和技术指导。

2026-03-10 10:48:39 2.01MB 计算机视觉

1

红外空中目标检测数据集：IR-airplane-4classes.7z

本数据集是一个专为目标检测任务设计的红外图像数据集，适用于训练和评估基于YOLO框架的检测模型。数据集中包含了使用红外传感器采集的空中目标图像，涵盖了四种常见的空中目标类别：飞机 (Airplane)、鸟类 (Bird)、无人机 (Drone) 和直升机 (Helicopter)。数据集已预先分割为训练集 (train)、验证集 (val) 和测试集 (test)，便于直接用于模型的训练、调优和性能评估。该数据集对于开发和研究在复杂背景、低光照或夜间环境下的空中目标自动检测与识别算法具有重要价值，可广泛应用于安防监控、边境巡逻、无人机反制及航空管理等领域。

2026-03-06 14:24:36 50.71MB 计算机视觉 深度学习 目标检测

1

[YOLO11+Crowdhuman]Crowdhuman人数统计数据集，使用YOLO11格式进行标注(八)

YOLO11加上Crowdhuman的人数统计数据集，主要提供了大量的图片及相应的YOLO格式标注信息，这种数据集可以用于直接进行目标检测的训练。YOLO是“You Only Look Once”的缩写，它是一种目标检测算法，以其快速和高效而闻名，能够实现实时的目标检测，广泛应用于计算机视觉领域中。在此基础上，Crowdhuman作为一个专门针对人群计数而设计的数据集，为研究者和开发者提供了在拥挤场景下进行目标检测和人数统计的训练和测试样本。数据集包含1480余张图片，图片内容涵盖了各种拥挤的场景，如人群密集的街道、公共场合、体育赛事等。每一幅图片都经过了YOLO11格式的精确标注，标注信息包括目标的位置、类别以及其他可能的相关属性。这样的标注方式为机器学习和深度学习模型提供了丰富的学习材料，从而帮助模型更好地识别和分类图像中的多个目标。这个数据集的用途非常广泛，首先它对于安防监控、人群密度分析、交通流量统计等领域具有重要的应用价值。例如，在公共安全领域，通过对人群的实时监控和分析，可以及时发现异常行为，有效预防和控制安全风险。同时，在商业分析中，通过精确的客流统计，可以更好地进行商业决策，提高商铺运营效率。此外，由于YOLO的高效性能，这个数据集也可以被用于研究如何提高在复杂背景下的目标检测准确性，或者开发出更加精准的算法来处理不同光照、遮挡、不同尺度的目标。这类研究对于推动计算机视觉技术的发展具有重要意义，可以进一步拓展到无人驾驶汽车、机器人导航、无人机侦查等高科技领域。 YOLO11+Crowdhuman数据集还为学术界和工业界提供了一个基准测试平台，研究者可以通过在此数据集上训练和测试模型，来比较不同方法的有效性。通过这样的比较，可以推动更高效的算法和模型的发展，进一步提升目标检测和人群统计的准确率和效率。 YOLO11+Crowdhuman数据集不仅为相关领域的研究和应用提供了丰富的资源，还为推动计算机视觉技术的进步提供了实验平台，其价值不容忽视。而随着技术的不断进步，未来对于该数据集的利用和研究仍有很大的拓展空间。

2026-03-06 11:28:58 626.86MB YOLO 目标检测 人数统计 计算机视觉

1

2026年AI视觉质检深度研究报告.pdf

2026-02-27 11:47:07 34.71MB

1

YOLO11多模态融合研究[源码]

本文主要探讨了基于YOLO11的多模态（可见光+红外光）目标检测方法，详细介绍了多模态融合的现状及其在YOLO11中的实现。文章首先分析了红外光与可见光的互补性，并介绍了LLVIP和KAIST数据集的特点。随后，文章详细阐述了三种多模态融合算法（前期融合、中期融合和后期融合）的原理及实验对比，指出中期融合在召回率、精确率和平均精度等指标上表现最优。此外，文章还提供了在YOLO11中实现多模态融合的具体步骤和代码示例，包括数据集格式要求和模型参数设置。最后，文章提出了进一步改进多模态性能的计划，类似于单模态YOLO11的改进方法。文章详细探讨了基于YOLO11的多模态目标检测方法，特别是针对可见光和红外光的融合应用。研究指出红外光与可见光在信息上具有互补性，能够提升目标检测的性能。文章首先分析了两种光谱数据的特点，然后介绍了LLVIP和KAIST这两个专门用于多模态目标检测的数据集。针对多模态融合，文章深入分析了前期、中期和后期三种融合策略，并通过实验对比，得出中期融合在多个性能指标上最优的结论。文章还展示了如何在YOLO11框架中实现多模态融合，并提供了详细的步骤说明以及代码示例，其中包含了数据集格式和模型参数设置的细节。此外，文章对于如何进一步提升多模态融合性能也提出了一些改进建议，这些改进建议与单模态YOLO11的提升策略类似。本文是一篇深入探讨多模态目标检测技术，并给出具体实施方法和优化方向的学术文章。具体来说，文章中提到的三种融合策略各有特点和适用场景。前期融合通常在数据输入阶段进行处理，将不同模态的特征进行合并后再输入到目标检测模型中。中期融合则在特征提取之后、目标识别之前进行，此时各个模态的特征已经抽象化，融合后的信息可以更好地辅助目标检测。后期融合则是在目标检测的最后阶段，将不同模态检测结果进行整合，以提升最终的检测精度。每种方法都有其优势和不足，文章通过实验验证了中期融合在多方面性能指标上的优势。在具体实施方面，文章不仅提供了YOLO11在多模态融合中的应用示例，还给出了相应的代码示例。这对于研究者和开发者来说，具有很大的实用价值，能够帮助他们快速理解和实现多模态目标检测。同时，文章对于数据集的格式要求和模型参数设置的详细说明，也对实验的复现和进一步研究起到了基础性的作用。文章最后提出的改进计划，对于推动多模态目标检测技术的发展具有重要的意义。这些建议不仅有助于进一步提升YOLO11在多模态融合领域的性能，也为后续的研究提供了参考和启发。研究多模态目标检测，尤其是将红外光与可见光融合应用于YOLO11，对于提高目标检测的鲁棒性和准确性具有重要的实际应用价值。无论是在智能监控、自动驾驶还是安防领域，这种技术都有广泛的应用前景。通过文章的详细分析和实验验证，读者可以全面了解多模态融合的现状和未来的发展方向。

2026-02-27 00:30:15 542B 计算机视觉 目标检测

1

个人信息

热门下载

最新下载

其他资源