环球微动态丨Meta让AI视频计算成本暴降95%，图片遮住一半AI也能猜出原图

互联网| 2022-07-06 09:48:07

Meta公司的研究人员发表了一系列关于MAE（masked auto-encoder，掩码自编码器）的新论文。MAE系统可以通过SSL技术（self-supervised learning，自主监督学习）预测数据中缺失的部分，进而还原残缺的文本、图像、视频和音频。

(资料图片仅供参考)

MAE系统还原不同类型文件的通用原理，就是根据已有信息预测缺失内容，再用其它数据弥补。

通过这项技术，AI或许能够自动进行数据标注（ground truth），而不用再通过人工标注。这就意味着，AI模型的学习效率得到很大提升，这或许为AI模型的未来发展带来了新思路。

一、智力的本质是预测能力，SSL技术可以提升AI智能水平

MAE系统使用了SSL技术（Self-supervised Learning，自监督学习）。SSL是指用于机器学习的标注源于数据本身，而非来自人工标注的一种技术。

MAE系统可以从非常零散的残缺数据中预测出丢失的那些部分，从而还原图像、视频和音频。而这就是MAE系统构建“世界模型”（world models）的过程。

Meta的首席AI科学家扬·勒昆（Yann LeCun）说：“SSL技术是AI系统构建‘世界模型’（world models）的前提条件。只有具备SSL功能后，AI才能够像人类一样具备理性和常识，获得知识迁移的能力，适应不同环境。”扬·勒昆表示，如果MAE系统可以预测数据中丢失的那部分，这就意味着AI能够理解世界是三维的，拥有一定程度的分辨能力，才有可能预测人的复杂行为。

扬·勒昆（Yann LeCun）告诉外媒IEEE Spectrum：“我们想创造能像动物和人类一样进行自主学习的AI模型。”扬·勒昆认为，智力的本质就是一种预测能力。这个观点得到2018年图灵奖得主本吉奥（Yoshua Bengio）的认可，本吉奥也认为对世界进行推理预测的能力是智力的关键。

左边是提供给MAE模型的训练图，中间是预测结果，右边是原图

二、填字游戏新玩法？AI帮你补全画面

Meta的AI部门的研究人员罗斯·吉尔希克（Ross Girshick）与人合著了一篇关于MAE系统原理的论文。论文中提到，Meta的MAE系统建立在一种叫Transformer的神经网络算法上。Transformer是一类基于注意力机制的神经网络算法。这种算法可以让AI模型减少对外部信息的依赖，捕捉数据或特征的内部关系，优化模型训练结果。

关于MAE原理的论文

在处理文本数据时，MAE系统将会检测一个缺乏某些数据的文本数据库。MAE系统检测到这些缺失的文本后，会用新的文本块补充丢失的内容。

这一技术同样可以迁移到MAE系统对静态图像的处理上。研究人员将图像分解成多个补丁（patch）块，再让MAE系统弥补缺失的图像。罗斯·吉尔希克（Ross Girshick）说，这一点是受到了谷歌关于ViT模型（Vision Transformer）的启发。

ViT模型（Vision Transformer)的基本原理就是将Transformer架构应用于计算机视觉领域。具体而言，ViT模型可以将图片切分为相同大小的补丁块，给每个补丁块编码后再组成图像序列，机器可以识别这种图像序列。基于这种启发，MAE系统在预测缺失的图像时，会把图像分解成很多小补丁块，再用新的补丁块填充丢失的内容。

三、文本和图像信息密度不同，遮盖75%图像实验结果最好

该团队发现，因为文本和图像的信息密度不同，文本和图像得到最佳还原效果所需遮盖的数据比例也不同。MAE系统还原静态图像时，掩盖75%的数据会得到相对最好的结果。但对于文本而言，这个数字是15%。

研究人员发现，遮盖75%的图像实验结果最好

语言是人类生成的具有高度语义和信息密集度的符号。每个字符都包含了很多含义，如果句子中丢失的单词过多，那么MAE模型会预测出很多种结果，准确率不高。与此对应，图像是具有大量空间冗余的自然符号。例如，在同一张图片上，区域相近的图片像素特征相差不大，所以通过模型可以从相邻的图像块中恢复丢失的图片信息。

罗斯·吉尔希克解释说，MAE系统包含两个工作步骤。首先，MAE系统会使用编码器通过数据集学习像素之间的关系。然后，MAE系统会使用解码器从蒙版开始重建原始图像。这两部分完成后，MAE系统会丢弃编码器，转而使用解码器用于分类和目标检测等视觉任务。

罗斯·吉尔希克说：“MAE系统的解码器可以完成物体识别等任务，这对我们而言是巨大的收获。”这意味着，通过MAE系统，机器可以自动为数据标注（ground truth），而不用人工标注数据。

四、MAE系统可节省95%的视频计算成本

当MAE系统用于处理视频时，研究人员会遮盖每帧画面中95%的数据信息。视频的帧与帧之间有很高的相似性，这意味着视频比静态图像有更多的信息冗余。Meta研究人员Christoph Feichtenhofer说，通过这种方法，MAE系统可以减少95%的计算成本，这就是MAE系统在视频计算上的一大优势。他还说，这个技术或许可以用于Facebook和Instagram上的内容审核和任务分类。

而对于音频的AI学习，Meta AI团队发现了一个巧妙的方法。他们把音频文件转化为了声谱图，换言之，他们把声音转化成了图像。然后他们会再用与图像相同的处理方法，把声谱图的补丁掩盖起来再进行训练。尽管该模型目前只能处理几秒钟的音频片段，但已经取得了很好的效果。

音频系统的工作人员Bernie Huang说，这项技术在音频上的潜在应用包括音频分类、改善语音通话、更好地找到压缩音频文件的方法等。