视觉变形金刚
在PyTorch中实现,这是一种使用变压器样式编码器在视觉分类中实现SOTA的新模型。相关文章。
特征
香草维生素
混合ViT(支持BiTResNets作为骨干网)
混合ViT(支持AxialResNets作为骨干网)
训练脚本
去做:
训练脚本
支持线性衰减
正确的超级参数
全轴向ViT
Imagenet-1K和Imagenet-21K的结果
安装
创建环境:
conda env create -f environment.yml
准备数据集:
mkdir data
cd data
ln -s path/to/dataset imagenet
运行脚本
对于非分布式培训:
python train.py --model ViT --name vit_logs
对于分布式培训:
CUDA_VISIBLE_DEVICES=0,1,2,3 python dist_tra
1