谷歌大脑最新操作玩“复古”:不用卷积注意力,图像分类接近SOTA

新闻 人工智能
这个架构名为MLP-Mixer,采用两种不同类型的MLP层,可以看做是一个特殊的CNN,使用 1×1卷积进行通道混合(按位操作),同时全感受野和参数共享的的单通道深度卷积进行字符混合(跨位操作)。

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

谷歌大脑的视觉Transformer团队(ViT),搞了个复古操作。

他们不用卷积神经网络(CNN)、也不用Transformer,仅凭最早的AI视觉任务采用的多层感知机(MLP)结构,就实现了接近SOTA的性能,更是在ImageNet图像分类任务上取得了87.94%的准确率。

谷歌大脑最新操作玩“复古”:不用卷积注意力,图像分类接近SOTA

这个架构名为MLP-Mixer,采用两种不同类型的MLP层,可以看做是一个特殊的CNN,使用 1×1卷积进行通道混合(按位操作),同时全感受野和参数共享的的单通道深度卷积进行字符混合(跨位操作)

在JFT-300M数据集上预训练、微调到224分辨率的Mixer-H/14版本取得了86.32%的准确率,比SOTA模型ViT-H/14仅低0.3%,但运行速度是其2.2倍

论文地址:
https://arxiv.org/abs/2105.01601

项目地址:
https://github.com/google-research/vision_transformer/tree/linen

 

责任编辑:张燕妮 来源: 量子位
相关推荐

2020-09-17 12:40:54

神经网络CNN机器学习

2022-02-21 09:25:57

VR研究Nature

2018-08-26 22:25:36

自注意力机制神经网络算法

2022-04-23 10:47:49

英国交通部自动驾驶驾驶员

2023-07-30 15:42:45

图神经网络PyTorch

2011-07-07 13:12:58

移动设备端设计注意力

2021-01-11 10:23:22

谷歌神经网络机器学习

2021-07-22 10:12:00

神经网络数据图形

2022-06-16 10:29:33

神经网络图像分类算法

2024-02-19 00:12:00

模型数据

2022-03-25 11:29:04

视觉算法美团

2021-07-28 15:35:58

谷歌神经网络AI

2012-10-08 10:47:41

谷歌虚拟大脑

2020-11-29 20:24:13

数据谷歌DeepMind

2023-03-12 13:23:27

UbuntuDOSBox复古游戏

2014-05-19 11:24:18

Teradata 大数据天睿

2018-05-03 16:27:29

RNN神经网络ResNet

2023-10-16 12:31:17

人工智能数据

2022-01-14 15:01:53

谷歌开源技术

2024-04-25 12:55:40

点赞
收藏

51CTO技术栈公众号