用于Vision Transformer的预训练模型,来源于huagging face。
Google ViT-Base-Patch16-224是一个基于Vision Transformer(ViT)的深度学习模型。该模型由Google的研究人员开发,用于图像分类和其他视觉任务。
在ViT模型中,图像被分割成一系列固定大小的块(或“patches”),然后这些块被线性嵌入到一个高维空间中。这些嵌入向量随后被输入到一个标准的Transformer架构中,该架构最初是为自然语言处理任务设计的,但已被成功应用于各种视觉任务。
Google ViT-Base-Patch16-224的具体参数如下:
模型大小:Base(基础版),这意味着它使用了一个相对较小的Transformer模型。
Patch大小:16x16,这意味着图像被分割成16x16像素的块。
输入图像大小:224x224,这是模型期望的输入图像大小(在预处理阶段,图像可能会被缩放到这个大小)。
2025-05-05 19:28:06
923.44MB
人工智能
1