传统的文本检测方法大多采用自下而上的流程,它们通常从低级语义字符或笔画检测开始,然后进行非文本组件过滤、文本行构建和文本行验证。复杂场景中文字的造型、尺度、排版以及周围环境的剧烈变化,导致人的视觉系统是在不同的视觉粒度下完成文本检测任务的,而这些自底向上的传统方法的性能很大程度上依赖于低级特征的检测,难以鲁棒地适应不同粒度下的文本特征。近年来,深度学习方法被应用于文本检测中来保留不同分辨率下的文本特征,但已有的方法在对网络中各层特征提取的过程中没有明确重点特征信息,在各层之间的特征映射中会有信息丢失,造成一些非文本目标被误判,使得检测过程不仅耗时,而且会产生大量误检和漏检。为此,提出一种基于注意力机制的复杂场景文本检测方法,该方法的主要贡献是在VGG16中引入了视觉注意层,在细粒度下利用注意力机制増强网络内全局信息中的显著信息。实验表明,在载有GPU的Ubuntu环境下,该方法在复杂场景文本图片的检测中能保证文本区域的完整性,减少检测区域的碎片化,同时能获得高达87%的查全率和89%的查准率。
2021-10-11 08:32:17 3.47MB 深度学习网络
1
基于最大池化的图双注意力网络计算机研究及应用.docx
2021-10-08 23:11:42 127KB C语言
深度连接注意力网络(DCANet) 插图 图1. DCANet的示意图。 我们使用Grad-CAM可视化中间特征激活。 Vanilla SE-ResNet50在不同阶段的关注点发生了巨大变化。 相比之下,我们的DCA逐步增强了SE-ResNet50的递归调整焦点,并密切关注目标对象。 方法 图2.深度连接注意力网络概述。 我们将先前关注块中的转换模块的输出连接到当前关注块中的提取模块的输出。 在多个关注维度的上下文中,我们将关注沿着每个维度连接起来。 在这里,我们展示了一个具有两个注意维度的示例。 可以扩展到更大的尺寸。 执行 在此存储库中,所有模型都由实现。 我们在使用标准的数据扩充策略。 要复制我们的DCANet作品,请参考 。 训练有素的模型 :smiling_face_with_smiling_eyes: All trained models and training log files are submitted to an an
2021-10-06 20:02:47 11.3MB Python
1
自下而上的注意力 该存储库包含基于Caffe的项目的PyTorch重新实现。 我们使用作为后端来提供完整的功能,包括培训,测试和特征提取。 此外,我们从原始存储库中迁移了经过预训练的基于Caffe的模型,该模型可以提取与原始模型相同的视觉特征(偏差 = 3.6 > = 1.4 > = 9.2和cuDNN 顶尖 侦探2 射线 OpenCV Pycocotools 请注意,Detectron2需要上述大多数要求。 安装 克隆包含Detectron2所需版本(v0.2.1)的项目 # clone the repository inclduing Detectron2(@be792b9) $ git clone --recursive https:
1
基于循环神经网络和注意力模型的文本情感分析.pdf
2021-09-25 22:05:23 1.13MB 神经网络 深度学习 机器学习 数据建模
密集连接的注意力金字塔残差网络用于人体姿势估计。
2021-09-25 15:30:51 1.75MB 研究论文
1
针对长 短期记忆网络(LSTM) 在行人轨迹预测问题中孤立考虑单个行人,且无法进行多种可能性预测的问题,提出基于注意力机制的行人轨迹预测生成模型(AttenGAN),来对行人交互模式进行建模和概率性地对多种合理可能性进行预测。AttenGAN 包括一个生成器和一个判别器,生成器根据行人过去的轨迹概率性地对未来进行多种可能性预测,判别器用来判断一个轨迹是真实的还是由生成器伪造生成的,进而促进生成器生成符合社会规范的预测轨迹。生成器由一个编码器和一个解码器组成,在每一个时刻,编码器的LSTM综合注意力机制给出的其他行人的状态,将当前行人个体的信息编码为隐含状态。预测时,首先用编码器LSTM的隐含状态和一个高斯噪声连接来对解码器LSTM的隐含状态初始化,解码器LSTM将其解码为对未来的轨迹预测。在ETH和UCY数据集上的实验结果表明,AttenGAN模型不仅能够给出符合社会规范的多种合理的轨迹预测,并且在预测精度上相比传统的线性模型(Linear)、LSTM模型、社会长短期记忆网络模型( S-LSTM)和社会对抗网络( S-GAN)模型有所提高,尤其在行人交互密集的场景下具有较高的精度性能。对生成器多次采样得到的预测轨迹的可视化结果表明,所提模型具有综合行人交互模式,对未来进行联合性、多种可能性预测的能力。   行人轨迹预测是指根据行人过去一段时间 的轨迹,预测其未来的轨迹,该技术在自动驾驶“和服务机器人导航中都有着广泛的应用。行人在决策的过程中比较灵活主观,甚至完全相同的场景,不同的人都会采取不同的决策。
2021-09-24 16:02:03 1.13MB 工业电子
1
针对长短时记忆网络(LSTM)不能有效地提取动作前后之间相互关联的信息导致行为识别率偏低的问题,提出了一种基于Bi-LSTM-Attention模型的人体行为识别算法。该算法首先从每个视频中提取20帧图像,通过Inceptionv3模型提取图像中的深层特征,然后构建向前和向后的Bi-LSTM神经网络学习特征向量中的时序信息,接着利用注意力机制自适应地感知对识别结果有较大影响的网络权重,使模型能够根据行为的前后关系实现更精确的识别,最后通过一层全连接层连接Softmax分类器并对视频进行分类。通过Action Youtobe和KTH人体行为数据集与现有的方法进行比较,实验结果表明,本文算法有效地提高了行为识别率。
2021-09-24 02:23:54 4.73MB 机器视觉 行为识别 注意力机 Inception
1
针对遥感图像语义分割中存在对多尺度目标的漏检和分割边界粗糙等问题,提出了一种基于注意力金字塔网络的航空影像建筑物变化检测方法。该方法采用编码-解码结构,在编码阶段使用ResNet101作为基础网络来提取特征,并在部分残差模块应用空洞卷积增大感受野,同时将金字塔池化结构作为编码网络的最后一层,以提取图像多尺度特征;在解码阶段的横向连接过程中引入注意力机制以突出重要特征,并采用自上而下的密集连接方式计算特征金字塔,有效融合不同阶段、不同分辨率的特征。在大型建筑物变化检测数据集上进行验证实验,实验结果表明所提方法在对不同尺寸建筑物目标的变化检测中展现出了良好的适应性,相比于经典语义分割网络具有一定的优势。
1
import math import torch import torch.nn as nn import os def file_name_walk(file_dir): for root, dirs, files in os.walk(file_dir): # print(root, root) # 当前目录路径 print(dirs, dirs) # 当前路径下所有子目录 print(files, files) # 当前路径下所有非目录子文件 file_name_walk(/home/kesci/input
2021-09-20 21:51:33 25KB c OR size
1