1.自己复现的一个 Restormer 训练测试方法。 2.Restormer 对于显卡的要求很高,而且训练时间非常久,自己跑需要自行改变一些参数。 3.只需要将图片放入对应路径下就可以直接运行。 4.敲代码不易,希望能不吝支持,有问题欢迎交流。
2024-05-21 10:32:55 83.03MB 图像恢复 Transformer
使用说明 分对话系统和机器翻译两部分 data为数据集 model为训练的模型 translation文件夹下又分了Seq2Seq和transformer两个模型,大家按需查看使用 以transformer文件夹为例,attention.py主要实现了注意力机制,transformer.py实现了transformer的主体架构,data.py为数据的预处理以及生成了词典、dataset、dataloader,readdata.py运行可以查看数据形状,train.py为训练模型,predict.py为预测,config.py为一些参数的定义。 transformer机器翻译的模型是用cuda:1训练的,如果要使用可能需要修改代码 如:gpu->cpu,即在CPU上使用 torch.load('trans_encoder.mdl', map_location= lambda storage, loc: storage) torch.load('trans_decoder.mdl', map_location= lambda storage, loc: storage)
1
案例系列:美国人口普查_预测收入超过50K_TabTransformer二分类 本示例演示了如何使用进行结构化数据分类,TabTransformer是一种用于监督和半监督学习的深度表格数据建模架构。TabTransformer基于自注意力的Transformer构建而成。Transformer层将分类特征的嵌入转换为强大的上下文嵌入,以实现更高的预测准确性。在这里,我们定义数据集的元数据,这些元数据对于读取和解析数据为输入特征以及根据其类型对输入特征进行编码非常有用。# 数值特征的名称列表"age", # 年龄"education_num", # 受教育年限。
2024-05-03 13:39:37 28KB transformer
1
本课件是对论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 的导读与NLP领域经典预训练模型 Bert 的详解,通过介绍NLP领域对通用语言模型的需求,引入 Bert 模型,并对其架构进行宏观微观的解读,然后详细介绍 Bert 每预训练阶段采用的两个任务,以及常见的微调下游任务场景。最后通过可视化的方式,给出 Bert 在向量表征上的优势所在。
2024-05-01 14:14:23 3.03MB 自然语言处理 bert transformer 预训练模型
1
一份PPT带你快速了解Graph Transformer:包括Graph Transformer 的简要回顾且其与GNN、Transformer的关联 【图-注意力笔记,篇章1】Graph Transformer:包括Graph Transformer 的了解与回顾且其与GNN、Transformer的关联 【图-注意力笔记,篇章2】Graphormer 和 GraphFormers论文笔记之两篇经典Graph Transformer来入门 【异构图笔记,篇章3】GATNE论文阅读笔记与理解:General Attributed Multiplex HeTerogeneous Network Embedding 包含这几个部分 可以参考我的博客:https://blog.csdn.net/qq_41895003/article/details/129218936
2024-04-26 13:32:10 3.38MB 深度学习 Transformer
1
swin transformer
2024-04-11 11:13:55 13.71MB 深度学习 人工智能 transformer
1
基于transformer的机器翻译
2024-04-08 17:02:16 204.93MB transformer 机器翻译
1
DETR(DEtection TRansformer)是一种基于Transformer架构的端到端目标检测模型,其主要流程包括: 1. 特征提取:通过卷积神经网络提取输入图像的特征。 2. Transformer编码器:将特征图输入Transformer编码器,利用自注意力机制和全连接层获取位置的上下文信息。 3. 对象查询:引入特殊的“对象”查询向量,指导模型在每个位置关注的对象类别。 4. 解码器:将Transformer编码器的输出作为解码器的输入,通过多层自注意力计算和全连接层计算生成每个位置的对象特征。 5. 对象匹配:将对象特征与所有可能的目标类别进行匹配,产生候选框和得分。 6. 位置预测:为每个候选框产生精确的位置预测。 DETR简化了目标检测流程,无需使用锚框或非极大值抑制,直接输出目标检测结果
2024-04-08 14:47:10 942KB transformer 目标检测 DETR pytorch
1
这段代码中,Conv1D是用于Attention层中的一维卷积操作。在Transformer中的Attention层中,输入序列和输出序列都是一维的。在自注意力机制中,为了计算每个位置和其他位置之间的相似度,需要将输入序列和输出序列进行一维卷积操作。
2024-03-23 14:39:41 12KB transformer
1
与传统的Transformer相比,Swin Transformer通过采用分层结构和窗口内注意力机制,实现了更高效的计算和更好的适用性于图像识别、目标检测和语义分割等任务 1. 层次化特征表示 Swin Transformer通过构建层次化的特征表示,使模型能够捕获从细粒度到粗粒度的不同层次的视觉信息,这对于处理图像中的多尺度对象至关重要 2. 移动窗口的注意力机制 不同于传统Transformer中的全局自注意力机制,Swin Transformer采用了局部窗口内的自注意力计算。通过这种方式,它显著降低了计算复杂度,并且通过窗口间的移动操作保持了全局上下文的连续性 3.动态调整的窗口 Swin Transformer设计了一种机制来动态调整注意力窗口的大小,这种灵活性允许模型根据不同层次的特征和任务需求调整其感受野,从而更有效地处理图像信息 4. 跨窗口连接 为了解决局部窗口限制内的信息孤岛问题,Swin Transformer引入了跨窗口的连接方式,通过这种方式可以在不增加计算负担的情况下,有效地整合全局信息
1