论文笔记,DenseNet实力夺冠

实验结果

4.2 Dropout

结合许多不同模型的预测是一种非常成功的减少测试误差的方式[1,3],但它先前训练花了好几天时间,似乎对于大型神经网络来说太过昂贵。然而,有一个非常有效的模型组合版本,它在训练中只花费两倍于单模型的时间。最近推出的叫做“dropout”的技术[10],它做的就是以0.5的概率将每个隐层神经元的输出设置为零。以这种方式“dropped
out”的神经元既不利于前向传播,也不参与反向传播。所以每次提出一个输入,该神经网络就尝试一个不同的结构,但是所有这些结构之间共享权重。因为神经元不能依赖于其他特定神经元而存在,所以这种技术降低了神经元复杂的互适应关系。正因如此,要被迫学习更为鲁棒的特征,这些特征在结合其他神经元的一些不同随机子集时有用。在测试时,我们将所有神经元的输出都仅仅只乘以0.5,对于获取指数级dropout网络产生的预测分布的几何平均值,这是一个合理的近似方法。我们在图2中前两个全连接层使用dropout。如果没有dropout,我们的网络会表现出大量的过拟合。dropout使收敛所需的迭代次数大致增加了一倍。

  原始。160个白色背景的自然彩色图像的对象。

目前这个版本的大脑评分中包含的两个神经基准,其使用的神经数据集包括对88个V4神经元和168个IT神经元的2,560个自然刺激神经响应(如图1):

3.3 局部响应归一化

ReLU具有所希望的特性,它们不需要输入归一化来防止它们达到饱和。如果至少有一些训练样例对ReLU产生了正输入,学习就将发生在那个神经元。可是,我们仍然发现下列局部归一化方案有助于一般化。用 可靠的线上网赌网站 1 表示点 可靠的线上网赌网站 2 处通过应用核
计算出的神经元激活度,然后应用ReLU非线性,响应归一化活性 可靠的线上网赌网站 3

由下式给出

可靠的线上网赌网站 4 其中求和覆盖了n个“相邻的”位于相同空间位置的核映射,N是该层中的核总数。核映射的顺序当然是任意的,且在训练开始前就确定。受到在真实神经元中发现的类型启发,这种响应归一化实现了一种侧向抑制,在使用不同核计算神经元输出的过程中创造对大激活度的竞争。常数k,n,α和β是超参数,它们的值要用验证集来确定;我们使用 可靠的线上网赌网站 5

。我们在某些层应用ReLU归一化后再应用这种归一化(见3.5节)。

该方案与Jarrett等人的局部对比度归一化方案具有一些相似之处[11],但我们的方案更正确的命名为“亮度归一化”,因为我们不减去平均活跃度。响应归一化将我们的top-1与top-5误差率分别减少了1.4%与1.2%。我们也验证了该方案在CIFAR-10数据集上的有效性:四层CNN不带归一化时的测试误差率是13%,带归一化时是11%(由于版面有限我们不能详细描述该网络,但这里提供的代码和参数文件对其有精确详细的说明:  )。

可靠的线上网赌网站 6

在每次运行中,利用训练图像使权重适应于从源神经元映射到目标神经元,然后利用这些权重预测出的响应得到held-out图像。

3.4 重叠Pooling

CNN中的Pooling层总结了同一核映射中邻近神经元组的输出。传统上,通过邻接pooling单元总结的邻近关系不重叠(例如,[17,11,4])。更准确地说,一个pooling层可以被认为是由间隔s像素的pooling单元网格组成,每个网格总结出一个z×z大小的邻近关系,都位于pooling单元的中心位置。若设s=z,我们得到传统的局部pooling,正如常用于CNN中的那样。若设s

  为了评估纹理和形状偏差,我们进行了六个主要实验以及三个对照实验,这些实验在附录中描述。
前五个实验(图2中可视化的样本)是简单的对象识别任务,唯一的区别是参与者可用的图像特征:

编辑:三石

5 学习的详细过程

我们使用随机梯度下降法和一批大小为128、动力为0.9、权重衰减为0.0005的样例来训练我们的网络。我们发现,这少量的权重衰减对于模型学习是重要的。换句话说,这里的权重衰减不仅仅是一个正则化矩阵:它减少了模型的训练误差。对于权重w的更新规则为

可靠的线上网赌网站 7 其中i是迭代指数,v是动力变量,ε是学习率, 可靠的线上网赌网站 8 是目标关于w、对 可靠的线上网赌网站 9 求值的导数在第i批样例 可靠的线上网赌网站 10

上的平均值。

我们用一个均值为0、标准差为0.01的高斯分布初始化了每一层的权重。我们用常数1初始化了第二、第四和第五个卷积层以及全连接隐层的神经元偏差。该初始化通过提供带正输入的ReLU来加速学习的初级阶段。我们在其余层用常数0初始化神经元偏差。

我们对于所有层都使用了相等的学习率,这是在整个训练过程中手动调整的。我们遵循的启发式是,当验证误差率在当前学习率下不再提高时,就将学习率除以10。学习率初始化为0.01,在终止前降低三次。我们训练该网络时大致将这120万张图像的训练集循环了90次,在两个NVIDIA
GTX 580 3GB GPU上花了五到六天。

  • 方法

此数据收集中使用的图像集与V4的图像生成方式类似,并且使用了24个对象类别。数据集总共包含2,400个图像(每个对象100个)。在这个基准测试中,我们使用了240张(每个物体10张)获得最多试验的图像。1472名人类观察者对亚马逊土耳其机器人提供的图像进行了简短的响应。在每次试验中,一幅图像呈现100毫秒,然后是有两个响应选择,一个对应于图像中出现的目标对象,另一个是其余23个对象。参与者通过选择图像中呈现的对象来响应。因此,对于每一个target-distractor对儿,从多个参与者中共获得了超过三十万的响应。

4 减少过拟合

我们的神经网络结构有6000万个参数。虽然ILSVRC的1000个类别使得每个训练样本强加10比特约束到从图像到标签的映射上,这显示出要学习如此多的参数而不带相当大的过拟合,这些类别是不够的。下面,我们描述减少过拟合的两种主要方法。

  • 实验结果
  • 人和ImageNet训练的CNN的内容与形状偏置对比

4.1 数据增强

减少图像数据过拟合最简单最常用的方法,是使用标签-保留转换,人为地扩大数据集(例如,[25,4,5])。我们使用数据增强的两种不同形式,这两种形式都允许转换图像用很少的计算量从原始图像中产生,所以转换图像不需要存储在磁盘上。在我们的实现中,转换图像是由CPU上的Python代码生成的,而GPU是在之前那一批图像上训练的。所以这些数据增强方案实际上是计算自由。

数据增强的第一种形式由生成图像转化和水平反射组成。为此,我们从256×256的图像中提取随机的224×224的碎片(还有它们的水平反射),并在这些提取的碎片上训练我们的网络(这就是图2中输入图像是224×224×3维的原因)。这使得我们的训练集规模扩大了2048倍,但是由此产生的训练样例一定高度地相互依赖。如果没有这个方案,我们的网络会有大量的过拟合,这将迫使我们使用小得多的网络。在测试时,该网络通过提取五个224×224的碎片(四个边角碎片和中心碎片)连同它们的水平反射(因此总共是十个碎片)做出了预测,并在这十个碎片上来平均该网络的softmax层做出的预测。

数据增强的第二种形式包含改变训练图像中RGB通道的强度。具体来说,我们在遍及整个ImageNet训练集的RGB像素值集合中执行PCA。对于每个训练图像,我们成倍增加已有主成分,比例大小为对应特征值乘以一个从均值为0,标准差为0.1的高斯分布中提取的随机变量。这样一来,对于每个RGB图像像素 可靠的线上网赌网站 11

,我们增加下面这项:

可靠的线上网赌网站 12 其中 可靠的线上网赌网站 13 与 可靠的线上网赌网站 14 分别是RGB像素值的3×3协方差矩阵的第i个特征向量与特征值, 可靠的线上网赌网站 15 是前面提到的随机变量。每个 可靠的线上网赌网站 16

对于特定训练图像的全部像素只提取一次,直到那个图像再次被用于训练,在那时它被重新提取。这个方案大致抓住了自然图像的一个重要属性,即,光照强度与颜色是变化的,而对象识别是不变的。该方案将top-1误差率减少了1%以上。

可靠的线上网赌网站 17

可靠的线上网赌网站 18

1 引言

当前物体识别的方法基本上都使用了机器学习方法。为了改善这些方法的性能,我们可以收集更大的数据集,学习更强有力的模型,并使用更好的技术,以防止过拟合。直到最近,标记图像的数据集都相当小——大约数万张图像(例如,NORB
[16],Caltech-101/256 [8, 9],以及CIFAR-10/100
[12])。简单的识别任务可以用这种规模的数据集解决得相当好,特别是当它们用标签-保留转换增强了的时候。例如,在MNIST数字识别任务中当前最好的误差率(<0.3%)接近于人类的表现[4]。但是现实环境中的物体表现出相当大的变化,因此要学习它们以对它们进行识别就必须使用更大的训练集。事实上,小规模图像数据集的缺陷已被广泛认同(例如,Pinto等人[21]),但是直到最近,收集有着上百万张图像的带标签数据集才成为可能。更大型的新数据集包括LabelMe
[23],它由几十万张完全分割图组成,还有ImageNet
[6],它由多于22,000个种类中超过1500万张带标签的高分辨率图像组成。

为了从几百万张图像中学习数以千计的物体,我们需要一个学习能力更强的模型。然而,物体识别任务的极大复杂性意味着这个问题不能被指定,即使是通过与ImageNet一样大的数据集,所以我们的模型中也应该有大量的先验知识,以补偿我们所没有的全部数据。卷积神经网络(CNN)构成了一个这种类型的模型[16,
11, 13, 18, 15, 22,
26]。它们的能力可以通过改变其深度与广度得到控制,它们也可作出有关图像性质的强壮且多半正确的假设(即,统计数据的稳定性和像素依赖关系的局部性)。因此,与层次规模相同的标准前馈神经网络相比,CNN的连接关系和参数更少,所以更易于训练,而其理论上的最佳性能可能只略差一点。

不论CNN的性质多有吸引力,也不论它们局部结构的相对效率有多高,将它们大规模地应用到高分辨率图像中仍然是极其昂贵的。幸运的是,目前的GPU搭配了一个高度优化的2D卷积工具,强大到足以促进大规模CNN的训练,而且最近的数据集像ImageNet包含足够的带标签的样例来训练这样的模型,还不会有严重的过拟合。

本文的具体贡献如下:我们在ILSVRC-2010和ILSVRC-2012大赛中使用过的ImageNet的子集上[2],训练了迄今为止最大型的卷积神经网络之一,并取得了迄今为止在这些数据集上报告过的最好结果。我们写了一个高度优化的GPU二维卷积工具以及训练卷积神经网络过程中的所有其他操作,这些我们都提供了 公开地址 。我们的网络中包含一些既新鲜而又不同寻常的特征,它们提高了网络的性能,并减少了网络的训练时间,这些详见第3节。我们的网络中甚至有120万个带标签的训练样本,这么大的规模使得过拟合成为一个显著的问题,所以我们使用了几种有效的方法来防止过拟合,这些在第4节中给以描述。我们最终的网络包含五个卷积层和三个全连接层,且这种层次深度似乎是重要的:我们发现,移去任何卷积层(其中每一个包含的模型参数都不超过1%)都会导致性能变差。

最后,网络的规模主要受限于当前GPU的可用内存和我们愿意容忍的训练时间。我们的网络在两块GTX
580 3GB
GPU上训练需要五到六天。我们所有的实验表明,等更快的GPU和更大的数据集可用以后,我们的结果就可以轻而易举地得到改进。

  • 讨论

可靠的线上网赌网站 19

6 结果

我们在ILSVRC-2010测试集上的结果总结于表1中。我们的网络实现了top-1测试集误差率 37.5% ,top-5测试集误差率 17.0% (若没有如4.1节所述的在十个碎片上平均预测,误差率是39.0%与18.3%)。ILSVRC-2010大赛中取得的最好表现是47.1%与28.2%,它的方法是用不同特征训练六个sparse-coding模型,对这些模型产生的预测求平均值[2],自那以后公布的最好结果是45.7%与25.7%,它的方法是从两类密集采样的特征中计算出费舍尔向量(FV),用费舍尔向量训练两个分类器,再对这两个分类器的预测求平均值[24]。

可靠的线上网赌网站 20

表1:ILSVRC-2010测试集上的结果比较。斜体字是他人取得的最好结果。

我们也在ILSVRC-2012大赛中输入了我们的模型,并在表2中报告结果。由于ILSVRC-2012测试集标签是不公开的,我们不能对试过的所有模型都报告测试误差率。在本段的其余部分,我们将验证误差率与测试误差率互换,因为根据我们的经验,它们之间相差不超过0.1%(见表2)。本文所描述的CNN实现了18.2%的top-5误差率。对五个相似CNN的预测求平均值得出了16.4%的误差率。训练一个在最末pooling层之后还有一个额外的第六个卷积层的CNN,用以对整个ImageNet
2011年秋季发布的图像(15M张图像,22K种类别)进行分类,然后在ILSVRC-2012上“微调”它,这种方法得出了16.6%的误差率。用在整个2011年秋季发布的图像上预训练的两个CNN,结合先前提到的五个CNN,再对这七个CNN作出的预测求平均值,这种方法得出了 15.3% 的误差率。比赛中的第二名实现了26.2%的误差率,用的方法是从不同类密集采样的特征中计算FV,用FV训练几个分类器,再对这几个分类器的预测求平均值[7]。

可靠的线上网赌网站 21

表2:在ILSVRC-2012验证集与测试集上的误差率比较。斜体字是由他人取得的最好结果。带星号的模型是经过“预训练”以对整个ImageNet
2011年秋季发布的图像集进行分类的。详见第6节。

最后,我们还报告在ImageNet
2009年秋季版本上的误差率,该版本有10,184种类别与890万张图像。在这个数据集上,我们按照文献惯例,用一半图像来训练,用另一半图像来测试。由于没有确定的测试集,我们的划分必然不同于以前的作者使用的划分,但这并不会明显地影响到结果。我们在该数据集上的top-1误差率和top-5误差率分别为67.4%和40.9%,这是通过上述的网络得到的,但还有个附加条件,第六个卷积层接在最后一个pooling层之后。该数据集上公布的最佳结果是78.1%和60.9%[19]。

  值得注意的是,我们只选择了由所有四个网络正确分类的对象和纹理图像。
这是为了确保我们在关于提示冲突的第六个实验中的结果是完全可解释的,这在形状与纹理假设方面是最具决定性的。
在提示冲突实验中,我们呈现具有矛盾特征的图像,但仍然要求参与者分配单个类。
请注意,对人类观察者的指示是完全中立的w.r.t. 形状或纹理(“点击您在呈现的图像中看到的对象类别;猜测是否不确定。没有正确或错误的答案,我们对您的主观印象感兴趣”)。

  • DenseNet- 169, CORnet-S和ResNet-101是最像大脑的ANN
  • 任何人工神经网络都无法预测到神经和行为响应之间存在的变异性,这表明目前还没有一个人工神经网络模型能够捕捉到所有相关的机制
  • 扩展之前的工作,我们发现ANN
    ImageNet性能的提高导致了大脑得分的提高。然而,相关性在ImageNet表现为70%时减弱,这表明需要神经科学的额外指导才能在捕获大脑机制方面取得进一步进展
  • 比许多较小(即不那么复杂)的ANN,比表现最好的ImageNet模型更像大脑,这意味着简化ANN有可能更好地理解腹侧流(ventral
    stream)。

ImageNet Classification with Deep Convolutional Neural Networks

Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton

  1. SIN和IN联合训练。
  2. 对SIN和IN进行联合训练,对IN进行微调。 我们将此模型称为Shape-ResNet。

该图像集由2560张灰度图像组成,分为八个对象类别(动物、船只、汽车、椅子、人脸、水果、平面、桌子)。每个类别包含8个独特的对象(例如,“face”类别有8张独特的脸)。图像集是通过在自然主义背景上粘贴一个3D对象模型生成的。在每个图像中,随机选择对象的位置,姿势和大小,以便为灵长类动物和机器创建具有挑战性的物体识别任务。
每个图像都使用了圆形掩模。

3.2 在多个GPU上训练

单个GTX 580
GPU只有3GB内存,这限制了可以在其上训练的网络的最大规模。事实证明,120万个训练样本才足以训练网络,这网络太大了,不适合在一个GPU上训练。因此我们将网络分布在两个GPU上。目前的GPU特别适合跨GPU并行化,因为它们能够直接从另一个GPU的内存中读出和写入,不需要通过主机内存。我们采用的并行方案基本上是在每个GPU中放置一半核(或神经元),还有一个额外的技巧:GPU间的通讯只在某些层进行。这就是说,例如,第3层的核需要从第2层中所有核映射输入。然而,第4层的核只需要从第3层中位于同一GPU的那些核映射输入。选择连接模式是一个交叉验证的问题,但是这让我们可以精确地调整通信量,直到它的计算量在可接受的部分。由此产生的体系结构有点类似于Ciresan等人提出的“柱状”CNN的体系结构[5],不同之处在于我们的纵列不是独立的(见图2)。与在一个GPU上训练的每个卷积层有一半核的网络比较,该方案将我们的top-1与top-5误差率分别减少了1.7%与1.2%。训练双GPU网络比训练单GPU网络花费的时间略少一些
(实际上单GPU网络与双GPU网络在最后的卷积层有着相同数量的核。这是因为大多数网络的参数在第一个全连接层,这需要上一个卷积层作为输入。所以,为了使两个网络有数目大致相同的参数,我们不把最后一个卷积层大小减半(也不把它后面跟随的全连接层减半)。因此,这种比较关系更偏向有利于单GPU网络,因为它比双GPU网络的“一半大小”要大)。

  • STYLIZED-IMAGENET

论与生物大脑的相似性,哪家人工神经网络最强?

3 体系结构

图2总结了我们网络的体系结构。它包含八个学习层——五个卷积层和三个全连接层。下面,我们将介绍该网络体系结构的一些新颖独特的功能。3.1-3.4是根据我们对于其重要性的估计来排序的,最重要的排在最前面。

  因此,我们设计了一个提示冲突实验,该实验基于具有自然统计的图像,但与纹理和形状证据相矛盾。
参与者和CNN必须根据他们最依赖的特征对图像进行分类。 图4中显示了该实验的结果。人类观察者对形状类别(95.9%的正确决策)的反应表现出明显偏向.CNN的这种模式是相反的,这显示了对纹理类别的响应的明显偏见
(VGG-16:形状为17.2%,纹理为82.8%;
GoogLeNet:31.2%对68.8%; AlexNet:42.9%对57.1%;
ResNet-50:22.1%对77.9%)。

神经度量的目的是确定源系统(例如,神经网络模型)的内在表征与目标系统(例如灵长类动物)中的内在表征的匹配程度。
与典型的机器学习基准测试不同,这些指标提供了一种原则性的方式来优先选择某些模型(即使它们的输出相同)。
我们在此概述了一个常见的度量标准——神经预测性,它是线性回归的一种形式。

3.5 总体结构

现在,我们已经准备好描述CNN的总体结构。如图2所示,该网络包括八个带权层;前五层是卷积层,剩下三层是全连接层。最后一个全连接层的输出被送到一个1000-way的softmax层,其产生一个覆盖1000类标签的分布。我们的网络使得多分类的Logistic回归目标最大化,这相当于最大化了预测分布下训练样本中正确标签的对数概率平均值。

可靠的线上网赌网站 22

图2:CNN体系结构示意图,明确显示了两个GPU之间的职责划分。一个GPU运行图中顶部的层次部分,而另一个GPU运行图中底部的层次部分。GPU之间仅在某些层互相通信。该网络的输入是150,528维的,且该网络剩下各层的神经元数分别为253,440–186,624–64,896–64,896–43,264–4096–4096–1000。

第二、第四和第五个卷积层的核只连接到前一个卷积层也位于同一GPU中的那些核映射上(见图2)。第三个卷积层的核被连接到第二个卷积层中的所有核映射上。全连接层中的神经元被连接到前一层中所有的神经元上。响应归一化层跟在第一、第二个卷积层后面。3.4节中描述的那种最大Pooling层,跟在响应归一化层以及第五个卷积层之后。ReLU非线性应用于每个卷积层及全连接层的输出。第一个卷积层利用96个大小为11×11×3、步长为4个像素(这是同一核映射中邻近神经元的感受野中心之间的距离)的核,来对大小为224×224×3的输入图像进行滤波。第二个卷积层需要将第一个卷积层的(响应归一化及池化的)输出作为自己的输入,且利用256个大小为5×5×48的核对其进行滤波。第三、第四和第五个卷积层彼此相连,没有任何介于中间的pooling层与归一化层。第三个卷积层有384个大小为3×3×256的核被连接到第二个卷积层的(归一化的、池化的)输出。第四个卷积层拥有384个大小为3×3×192的核,第五个卷积层拥有256个大小为3×3×192的核。全连接层都各有4096个神经元。

  Greyscale。原始数据集中的图像使用skimage.color.rgb2gray转换为灰度。 对于CNN,沿着颜色通道堆叠灰度图像

该团队检查了大量在ImageNet上训练的深层神经网络,并将它们的内在表征与V4、IT和人类行为测量中的非人类视觉皮层区域的神经记录进行了比较。

7 讨论

我们的研究结果表明,大型深度卷积神经网络在一个非常具有挑战性的数据集上使用纯粹的监督学习,能够达到破纪录的结果。值得注意的是,如果有一个卷积层被移除,我们的网络性能就会降低。例如,除去任何中间层都将导致该网络的top-1性能有2%的损失。所以该层次深度对于达到我们的结果确实是重要的。为了简化实验,我们没有使用任何无监督的预训练,即使我们预计它将带来帮助,特别是我们可以获得足够的计算能力来显著地扩大网络规模,而不带来标记数据量的相应增加。到目前为止,我们的结果有所改善,因为我们已经让网络更大,训练时间更久,但是为了匹配人类视觉系统的infero-temporal路径,我们仍然有更高的数量级要去达到。最终我们想要在视频序列上使用非常大型的深度卷积网络,其中的瞬时结构会提供非常有用的信息,这些信息在静态图像中丢失了或极不明显。

  可靠的线上网赌网站 23

相比之下,ImageNet性能和行为预测性之间的相关性依然强劲,AlexNet(57.50%排名前1)或BaseNets的表现远远低于最佳模型。然而,行为得分上表现最好的模型并不是ImageNet上最先进的模型:ResNet-101在行为得分(.389)上排名最高,但是ImageNet排名前1的表现为77.37%。
PNASNet实现了更高的ImageNet性能(82.90%排名前1),但行为得分显着降低(.351)。

3.1 ReLU非线性

将神经元的输出f,作为其输入x的函数,对其建模的标准方法是用 可靠的线上网赌网站 24 或者 可靠的线上网赌网站 25 。就梯度下降的训练时间而言,这些饱和非线性函数比不饱和非线性函数 可靠的线上网赌网站 26 要慢得多。我们跟随Nair和Hinton[20]称这种不饱和非线性的神经元为修正线性单元(ReLU)。训练带ReLUs的深度卷积神经网络比带tanh单元的同等网络要快好几倍。如图1所示,它显示出对于特定的四层卷积网络,在CIFAR-10数据集上达到25%的训练误差所需的迭代次数。此图显示,如果我们使用了传统的饱和神经元模型,就不能用如此大的神经网络来对该工作完成实验。

可靠的线上网赌网站 27

图1:带ReLU的四层卷积神经网络(实线)在CIFAR-10数据集上达到25%训练误差率要比带tanh神经元的同等网络(虚线)快六倍。每个网络的学习速率是独立选取的,以使得训练尽可能快。没有使用任何形式的正则化。这里演示的效果因网络结构的不同而不同,但带ReLU的网络学习始终比带饱和神经元的同等网络快好几倍。

我们不是第一个在CNN中考虑传统神经元模型的替代品的。例如,Jarrett等人[11]声称,非线性函数 可靠的线上网赌网站 28 由于其后随局部average
pooling的对比度归一化的类型,它在Caltech-101数据集上工作得特别好。然而,在该数据集上的主要关注点是防止过拟合,所以他们正在观察的效果不同于我们报告的为拟合训练集使用ReLU时的加速能力。更快的学习对大型数据集上训练的大型模型的性能有很大影响。

  • 摘要

作者:Martin Schrimpf等

摘要

我们训练了一个大型的深度卷积神经网络,来将在ImageNet
LSVRC-2010大赛中的120万张高清图像分为1000个不同的类别。对测试数据,我们得到了top-1误差率37.5%,以及top-5误差率17.0%,这个效果比之前最顶尖的都要好得多。该神经网络有6000万个参数和650,000个神经元,由五个卷积层,以及某些卷积层后跟着的max-pooling层,和三个全连接层,还有排在最后的1000-way的softmax层组成。为了使训练速度更快,我们使用了非饱和的神经元和一个非常高效的GPU关于卷积运算的工具。为了减少全连接层的过拟合,我们采用了最新开发的正则化方法,称为“dropout”,它已被证明是非常有效的。在ILSVRC-2012大赛中,我们又输入了该模型的一个变体,并依靠top-5测试误差率15.3%取得了胜利,相比较下,次优项的错误率是26.2%。

  总之,我们提供的证据表明,今天的机器识别过度依赖于对象纹理而不是通常假设的全局对象形状。
我们展示了基于形状的表示对强大推理的优势(使用我们的Stylized-ImageNet数据集在神经网络中引入这种表示)。
我们设想我们的发现以及我们公开可用的模型权重,代码和行为数据集(97个观察者的49K试验)以实现三个目标:首先,更好地理解CNN表示和偏置。
其次,迈向更合理的人类视觉对象识别模型。 第三,这是未来事业的有用起点,其中领域知识表明基于形状的表示可能比基于纹理的表示更有益。

行为基准的目的是在任何给定任务中计算源(例如,ANN模型)和目标(例如,人类或猴子)的行为响应之间的相似性。对于核心对象识别任务,灵长类动物(包括人类和猴子)表现出与ground-truth标签不同的行为模式。因此,这里的主要基准是一个行为响应模式度量,而不是一个全面的准确性度量。ANN能够生成和预测灵长类动物的成功和失败模式,因此可以获得更高的分数。这样做的一个结果是,达到100%准确率的ANN不会达到完美的行为相似性评分。

6.1 定性评价

图3显示了通过该网络的两个数据连接层学习到的卷积核。该网络已经学习到各种各样的频率与方向选择核,以及各种颜色的斑点。注意两个GPU显现出的特性,3.5节中描述了一个结果是限制连接。GPU1上的核大多数颜色不明确,而GPU2上的核大多数颜色明确。这种特性在每一次运行中都会出现,且独立于所有特定的随机权重初始化(以GPU的重新编数为模)。

可靠的线上网赌网站 29

图3:通过 的输入图像上第一个卷积层学习到的96个大小为
的卷积核。顶部的48个核是从GPU1上学到的,底部的48个核是从GPU2上学到的。详见6.1节。

在图4左边面板上,通过计算该网络在八个测试图像上的top-5预测,我们定性地判断它学到了什么。注意到即使是偏离中心的物体,比如左上角的一小块,也可以被网络识别。大多数的top-5标签似乎合情合理。例如,只有其他类型的猫科动物被认为是对豹貌似合理的标签。在某些情况下(铁栅、樱桃),对于图片意图的焦点存在歧义。

可靠的线上网赌网站 30

图4:(左图)八个ILSVRC-2010测试图像,以及被我们的模型认为最有可能的五个标签。正确的标签写在每个图像下面,正确标签的概率也以红色条予以显示(若它在前5之内)。(右图)第一列是五个ILSVRC-2010测试图像。其余列显示了六个训练图像,它们在最后的隐层产生的特征向量与测试图像的特征向量有最小的欧氏距离。

探测网络的视觉知识有另一种方法,就是考虑由位于最后的4096维隐层上的图像引起的特征激活。如果两个图像用小欧氏分离产生了特征激活向量,我们可以说,在神经网络的更高级别上认为它们是相似的。图4显示了测试集中的五个图像,以及训练集中根据这一标准与其中每一个最相似的六个图像。注意,在像素级别,检索到的训练图像一般不会接近第一列中的查询图像。例如,检索到的狗和大象表现出各种各样的姿势。我们会在补充材料里给出更多测试图像的结果。通过使用两个4096维实值向量之间的欧氏距离来计算相似性是低效的,但它可以通过训练一个自动编码器将这些向量压缩为短的二进制代码来变得高效。这应该会产生一个比应用自动编码器到原始像素要好得多的图像检索方法[14],它不利用图像标签,此后还有一种用相似边缘图案来检索图像的倾向,而不论它们在语义上是否相似。

  增加的形状偏差以及因此移位的表示是否也会影响CNN的性能或稳健性?
除了IN和SIN训练的ResNet-50架构,我们还在此处分析了两种联合训练方案:

【新智元导读】人工神经网络的终极目标应当是能够完全模拟生物神经网络。而随着ANN的不断发展,已然呈现出了许多性能优秀的模型。由MIT、NYU、斯坦福等众多著名大学研究人员组成的团队,便提出了brain-score系统,对当今主流的人工神经网络进行评分排名。本文便带读者了解一下在众多人工神经网络中,最为贴近生物神网络的那些ANN。

2 数据集

ImageNet是一个拥有超过1500万张带标签的高分辨率图像的数据集,这些图像分属于大概22,000个类别。这些图像是从网上收集,并使用Amazon
Mechanical
Turk群众外包工具来人工贴标签的。作为PASCAL视觉目标挑战赛的一部分,一年一度的ImageNet大型视觉识别挑战赛(ILSVRC)从2010年开始就已经在举办了。ILSVRC使用ImageNet的一个子集,分为1000种类别,每种类别中都有大约1000张图像。总之,大约有120万张训练图像,50,000张验证图像和150,000张测试图像。

ILSVRC-2010是ILSVRC中能获得测试集标签的唯一版本,因此这也就是我们完成大部分实验的版本。由于我们也在ILSVRC-2012上输入了模型,在第6节中我们也会报告这个数据集版本上的结果,该版本上的测试集标签难以获取。在ImageNet上,习惯性地报告两个误差率:top-1和top-5,其中top-5误差率是指测试图像上正确标签不属于被模型认为是最有可能的五个标签的百分比。

ImageNet由各种分辨率的图像组成,而我们的系统需要一个恒定的输入维数。因此,我们下采样这些图像到固定的分辨率256×256。给定一张矩形图像,我们首先重新缩放图像,使得短边长度为256,然后从得到的图像中裁剪出中央256×256的一片。除了遍历训练集从每个像素中减去平均活跃度外,我们没有以任何其他方式预处理图像。所以我们用这些像素(中央那一片的)原始RGB值训练网络。

  Silhouette。原始数据集中的图像转换为轮廓图像,在白色背景上显示完全黑色的对象(有关步骤,请参阅附录A.6)。

使用该评分系统,得到的结果如下:

  • 基于形状表示的稳健性和准确

计算所有单个神经类神经预测值的中位数(例如,在目标大脑区域测量的所有目标位置),以获得该训练-测试分割的预测得分(因为响应通常非正常地分布,所以使用中值)。所有训练-测试分割的平均值即目标大脑区域的最终神经预测得分。

  抗扰动的稳健性。我们系统地测试了如果图像被均匀或相位噪声,对比度变化,高通和低通滤波或幻象扰动扭曲,模型精度如何降低。这种比较的结果,包括供参考的人类数据,见图6。在未失真图像上缺少几个百分点的准确度时,SIN训练的网络在几乎所有图像处理上都优于IN训练的CNN。
(低通滤波/模糊是SIN训练网络更容易受到影响的唯一失真类型,这可能是由于通过绘画在SIN中高频信号的过度表现以及对尖锐边缘的依赖。)
训练有素的ResNet-50可以实现人类级失真的稳健性 –
尽管在训练期间从未发现任何扭曲现象。

这是一种综合了多种神经和行为基准的测试方法,可以根据神经网络与大脑核心对象识别机制的相似程度对其进行打分,并用这个方法对最先进的深层神经网络进行评估。

  有趣的是,这为许多相当不连贯的发现提供了解释:CNN符合人类的纹理外观(Wallis等,2017),以及它们对神经反应的预测能力。人脸识别似乎主要是由于类似人的纹理表征,而不是人类的轮廓表示(Laskar等,2018;
Long&Konkle,2018)。此外,基于纹理的生成建模方法,如样式转移(Gatys等,2016),单图像超分辨率(Gondal等,2018)以及静态和动态纹理合成(Gatys等,2015;
Funke等人,2017)都使用标准CNN产生了优异的结果,而基于CNN的形状转移似乎非常困难(Gokaslan等,2018)。美国有线电视新闻网仍然可以识别出混乱形状的图像(Gatys
et al。,2017;
Brendel&Bethge,2019),但是他们在识别缺少纹理信息的物体时遇到了更多困难(Ballester&de
Ara’ujo,2016; Yu等,
2017年)。我们的假设也可以解释为什么在合成纹理图像数据库上训练的图像分割模型转移到自然图像和视频(Ustyuzhaninov等,2018)。除此之外,我们的结果显示ImageNet训练的CNN和人类观察者之间存在明显的行为差异。虽然人类和机器视觉系统在标准图像上实现了类似的高精度(Geirhos等,2018),但我们的研究结果表明,潜在的分类策略可能实际上非常不同。
这是有问题的,因为CNN被用作人类对象识别的计算模型(例如,Cadieu等人,2014;
Yamins等人,2014)。

倒计时9**天**

可靠的线上网赌网站 31

可靠的线上网赌网站 32

  • 数据集

神经(Neural)

  • ImageNet”类别。

表1
总结了每个模型在大脑基准测试范围内的得分

  Texture。纹理的48个自然彩色图像。 通常,纹理由动物的全宽贴片组成,或者特别是对于人造物体,由具有相同物体的多次重复的图像组成(例如,彼此相邻的许多瓶子,参见图7中的
附录)。

返回搜狐,查看更多

  Edges。使用在MATLAB中实现的Canny边缘提取器将原始数据集中的图像转换为基于边缘的表示。

个人神经和行为基准的得分

  心理物理实验表明,ImageNet训练的CNN,但不是人类,表现出强烈的纹理偏差。
一个原因可能是训练任务本身:从Brendel&Bethge我们知道ImageNet可以仅使用本地信息以高精度求解。
换句话说,它可能只需要整合来自许多局部纹理特征的证据,而不是经历整合和分类全局形状的过程。
为了测试这个假设,我们在Stylized-ImageNet数据集上训练了一个ResNet-50,其中我们用随机选择的艺术绘画的无信息风格取代了与物体相关的局部纹理信息。

可靠的线上网赌网站 33

相对于ImageNet性能的大脑得分如图1所示。在目前的基准测试中,最强的模型是DenseNet-169,其大脑得分为549,紧随其后的是CORnet-S和ResNet-101,其大脑得分分别为544和542。
目前来自机器学习社区的ImageNet上的顶级模型都来自DenseNet和ResNet系列模型。
DenseNet-169和ResNet-101也是IT神经预测和行为预测性得分最高的模型之一,IT分数为0.604(DenseNet-169,图层conv5_block16_concat)和行为得分为ResNet-101。

  为了减少CNN的纹理偏差,我们引入了Stylized-ImageNet,这是一种通过样式转移消除局部线索的数据集,从而迫使网络超越纹理识别。
使用这个数据集,我们证明ResNet-50架构确实可以学习基于物体形状识别物体,揭示当前CNN中的纹理偏差不是设计而是由ImageNet训练数据引起。
这表明标准的ImageNet训练模型可能会通过关注局部纹理来获取“快捷方式”,这可以被视为奥卡姆剃刀的一个版本:如果纹理足够,为什么CNN应该学到更多其他东西呢?
虽然纹理分类可能比形状识别更容易,但我们发现在SIN上训练的基于形状的特征很好地概括为自然图像。

责任编辑:

  相同的图像被送到四个在标准ImageNet上预训练的CNN,即AlexNet(Krizhevsky等,2012),GoogLeNet(Szegedy等,2015),VGG-16(Simonyan&Zisserman,2015)和ResNet-50
。 使用WordNet层次结构(Miller,1995)-e.g将1,000个ImageNet类预测映射到16个类别。
ImageNet类别虎斑猫将被映射到cat。 总的来说,本研究中的结果基于48,560项心理物理试验和97名参与者。

原标题:【深度学习模型哪个最像人脑?】MIT等人工神经网络评分系统,DenseNet实力夺冠!

  如引言中所述,CNN使用越来越复杂的形状特征来识别物体的共同假设与最近的实证研究结果之间似乎存在很大的差异,而这些研究结果表明物体纹理的关键作用。为了明确地探究这个问题,我们利用风格转移(Gatys
et
al。,2016)来生成具有相互矛盾的形状和纹理信息的图像。在有控制的心理物理实验室环境中对CNN和人类观察者进行广泛实验的基础上,我们提供证据表明,与人类不同,ImageNet训练的CNN倾向于根据局部纹理而不是全局物体形状对物体进行分类。与之前的工作相结合,表明改变其他主要对象尺寸,如颜色(Geirhos等,2018)和物体尺寸相对于背景(Eckstein等,2017)不会对CNN识别性能产生强烈的不利影响,这突出了纹理等局部线索在CNN对象识别中的特殊作用。

人工神经网络(ANN)总是会与大脑做比较。

  卷积神经网络通常被认为通过学习对象形状的日益复杂的表示来识别对象。最近的一些研究表明图像纹理具有更重要的作用。我们在这里通过评估具有纹理-形状线索冲突的图像的CNN和人类观察者来将这些相互矛盾的假设置于定量测试中。我们表明,ImageNet训练的CNN强烈偏向于识别纹理而不是形状,这与人类行为证据形成鲜明对比,并揭示了根本不同的分类策略。然后,我们证明在ImageNet上学习基于纹理的表示的相同标准体系结构(ResNet-50)能够学习基于形状的表示,在ImageNet的stylized版本“Stylized-ImageNet”上进行训练。这为我们良好控制的心理物理实验室环境中的人类行为表现提供了更好的适应性(共有97个观察者进行了总共48,560次心理物理试验的九个实验),并且具有许多意想不到的突发性好处,例如改进的物体检测性能和以前在广泛的图像失真中看不见的稳健性,突出了基于形状的表示的优点。

行为

  分类性能。如表2所示,Shape-ResNet在top-1和Top-5
ImageNet验证精度方面超过了vanilla
ResNet。这表明SIN可能是一个有用的数据ImageNet上的扩充,可以在不进行任何体系结构更改的情况下提高模型性

事实上,ImageNet前1名表现与行为评分之间的相关性似乎正在削弱,模型在ImageNet上表现良好,与行为得分几乎没有关联,这表明通过继续努力推动ImageNet,可能无法实现与行为数据更好的一致性。

  我们将“轮廓”定义为2D中对象的边界轮廓(即,对象分割的轮廓)。
当提到“对象形状”时,我们使用比仅仅对象的轮廓更宽的定义:我们指的是描述对象的3D形式的轮廓集,即包括不是轮廓的一部分的那些轮廓。
继Gatys等人之后,我们将“纹理”定义为具有空间静态统计的图像。 注意,在非常局部的层面上,纹理可以具有非静止元素:例如, 一个瓶子显然有非平稳的统计数据,但许多瓶子彼此相邻被认为是一种质地:“things”变成“stuff”(Gatys等,2017,第178页)。
有关“瓶子纹理”的示例,请参见图7。

总量为i
的图像数据源(模型特征)首先使用可用的行为数据转换为目标类别c和图像ib的一个矩阵ib×c。

  所有的心理物理实验都是在一个控制良好的心理物理实验室环境中进行的,并遵循Geirhos等人的范例,其允许在完全相同的图像上直接比较人类和CNN分类表现。简而言之,在每个试验中,参与者被呈现300ms的固定方格,然后是300ms的刺激图像呈现。在刺激图像之后,我们呈现全对比度粉红色噪声掩模(1
/
f光谱形状)200ms,以最小化人类视觉系统中的反馈处理,从而使前馈CNN的比较尽可能公平。随后,参与者必须通过单击显示1500毫秒的响应屏幕来选择16个入门级类别中的一个。在此屏幕上,所有16个类别的图标排列在4X4网格中。这些类别是飞机,熊,自行车,鸟,船,瓶,汽车,猫,椅子,时钟,狗,大象,键盘,刀,烤箱和卡车。这些是Geirhos等人提出的所谓的“16类

在个人得分上,ImageNet的表现与大脑得分的相关性有很大的差异(图2)。例如,V4单站点响应最好不仅是由VGG-19(ImageNet
top-1性能71.10%)预测出来的,而且还有Xception(79.00%top-1)。
同样,IT单站点响应最好是由DenseNet-169(.606;
75.90%top-1)预测出来的,但即使是BaseNets(.592;
47.64%top-1)和MobileNets(.590;
69.80%top-1)也是非常接近相同的IT神经预测评分。

  • 总结

图1
大脑评分概述使用两类指标来比较神经网络:神经指标将内部活动与macaque腹侧流区域进行比较,行为指标比较输出的相似性。对于小的、随机组合的模型(灰点),大脑得分与ImageNet的性能相关,但是对于当前最先进的模型(绿点)来说,其性能在70%的前1级变得很弱。

  • 心理-物理实验

神经记录

  在本节中,我们概述了范式和过程的核心要素。 附录中提供了便于复制的详细信息。 此存储库中提供了数据,代码和材料:https://github.com/rgeirhos/texture-vs-shape

大脑得分

  • 克服CNNS的纹理偏见

虽然ANN发展到现在也无法完全模拟生物大脑,但是技术是一直在进步的。那么问题来了:

  为了测试局部纹理特征是否仍然足解决SIN,我们评估所谓的BagNets的性能。
最近由Brendel&Bethge推出,BagNets采用ResNet-50架构,但其最大感受区域尺寸限制为9X9,17X17或33X33像素。
这使得BagNets无法学习或使用任何远程空间关系进行分类。
虽然这些受限制的网络可以在ImageNet上达到很高的准确度,但它们无法在SIN上实现相同的效果,显示出较小的感知字段大小(例如SIN的前5精度为10.0%,而对于BagNet的ImageNet为70.0%,
感受野大小为9X9像素)。 这清楚地表明我们提出的SIN数据集确实去除了局部纹理线索,迫使网络整合远程空间信息。

可靠的线上网赌网站 34

  迁移学习。我们在Pascal VOC
2007上测试了每个模型的表示作为更快的R-CNN(Ren等人,2017)的主干特征。在训练数据中加入SIN大大提高了物体检测性能,从70.7到75.1
mAP50,如表所示 2.这符合直觉,即对于物体检测,基于形状的表示比基于纹理的表示更有益,因为包含物体的地面实况矩形通过设计与全局物体形状对齐。

大脑的基准

可靠的线上网赌网站 35

可靠的线上网赌网站 36

可靠的线上网赌网站 37

来源:bioRxiv

  Cue conflict。使用迭代样式转移(Gatys等人,2016)在纹理数据集的图像和来自原始数据集的图像之间生成的图像。
我们共生成了1280个提示冲突图像,允许在单个实验会话中向人类观察者进行演示。

  从ImageNet开始,我们通过剥离其原始纹理的每一个图像,并通过AdaIN样式转移(Huang&Belongie,2017)将其替换为随机选择的绘画风格,构建了一个新的数据集(称为Stylized-ImageNet或SIN)(参见
图3中的示例),其样式化系数= 1.0。 我们使用Kaggle的Painter by
Numbers数据集作为风格来源,因为它的风格多样和大小。 我们使用AdaIN快速风格转移而不是迭代风格化(例如Gatys等,2016)有两个原因:首先,确保使用不同的程式化技术完成SIN训练和提示冲突刺激测试,结果不会依靠单一的程式化方法。 其次,为了实现整个ImageNet的风格化,使用迭代方法需要过长的时间。
我们提供了在这里创建Stylized-ImageNet的代码:

I2n:标准化的图像级行为一致性

  CNN和人类几乎都能正确识别所有物体和纹理图像。 对象的灰度版本仍然包含形状和纹理,同样被认可。 当物体轮廓用黑色填充以产生轮廓时,CNN识别精度远低于人类精确度。
这对于边缘刺激来说甚至更加明显,这表明人类观察者对具有很少或没有纹理信息的图像处理得更好。
在这些实验中的一个混淆是CNN倾向于不能很好地应对域移位,即图像统计从自然图像到草图的大的变化。

以往的研究发现,分类性能较高的模型更容易预测神经数据。
在这里,我们通过证明这种性能驱动的方法在广泛的ImageNet性能体系中在多个深度神经网络上进行评估时,广泛意义上扩展了这项工作,但是在达到人类性能水平时未能产生与大脑完全匹配的网络(
见图1)。

  然后,我们在三个实验中将这些模型与vanilla
ResNet-50进行了比较:IN的分类性能,转移到Pascal VOC
2007和抗图像扰动的稳健性。

神经预测性用于评估源系统(例如,深度ANN)中给定图像的响应对目标系统中的响应(例如,视觉区域IT中的单个神经元响应)的预测程度。
作为输入,该度量需要两个刺激×神经元这种形式的集合,其中神经元可以是神经记录或模型激活。

可靠的线上网赌网站 38

以下是对衡量模型基准的概述。基准由一组应用于特定实验数据的指标组成,在这里可以是神经记录或行为测量。

  此外,我们为ImageNet-C测试的模型提供了稳健性结果,ImageNet-C是15种不同图像损坏的综合基准(Hendrycks&Dietterich,2019),见附录表4。
SIN和IN联合训练导致13种腐败类型的强烈改进(高斯,射击和脉冲噪声;散焦,格拉斯和运动模糊;雪,霜和雾天气类型;对比度,弹性,像素化和JPEG数字腐败)。
这大大降低了整体腐败错误率,从vanilla
ResNet-50的76.7降至69.3。 同样,这些腐败类型中没有一个明确地是训练数据的一部分,强化了在训练体制中结合SIN以非常一般的方式改进模型稳健性。

首先,使用线性变换将源神经元映射到每个目标神经元,这个映射过程是在多个刺激的训练-测试分割上执行的。

在功能方面与大脑最相似的神经网络,将包含与大脑最近似的机制。因此,MIT、NYU、斯坦福等众多知名大学联手开发了“大脑评分”(brain – score)。

可靠的线上网赌网站 39

神经预测:图像级神经一致性

  最重要的是,SIN训练的ResNet-50在我们的线索冲突实验中显示出更强的形状偏置,从IN训练模型的22%增加到81%。
在许多类别中,形状偏置几乎与人类一样强烈。

当前一轮基准测试中使用的行为数据是从Rajalingham等人与2015和2018年的研究论文中获得的。这里我们只关注人类行为数据,但是人类和非人类灵长类动物行为模式非常相似。

  在Stylized-ImageNet上训练和评估的标准ResNet-50达到了79.0%的前5精度。
相比之下,在ImageNet上训练和评估的相同架构实现了92.9%的前5精度。
这种性能差异表明SIN是一项比IN更难的任务,因为纹理不再是预测性的,而是一种令人讨厌的因素。
有趣的是,ImageNet的功能很难概括为SIN(只有16.4%的前5精度);
然而,在SIN上学到的特征很好地概括了ImageNet(82.6%的前5精度,没有任何微调)。

可靠的线上网赌网站,最先进的排名

  我们的结果表明,更多基于形状的表示可以有益于依赖于预训练的ImageNet
CNN的识别任务。此外,虽然ImageNet训练的CNN概括我们在Stylized-ImageNet上接受过训练的ResNet-50经常达到甚至超过人类级别的稳健性(没有接受过训练,因此对于大范围的图像扭曲(例如2017年的Dodge&Karam;
Geirhos等,2017; 2018)特定图像降级。这令人兴奋,因为Geirhos等人
表明,对特定失真进行训练的网络通常不能获得针对其他未见图像处理的鲁棒性。这种新兴行为突出了基于形状的表示的有用性:虽然局部纹理容易被各种噪声(包括现实世界中的那些噪声,例如雨和雪)扭曲,但是对象形状保持相对稳定。此外,这一发现为人类在应对扭曲时的令人难以置信的稳健性提供了一个非常简单的解释:基于形状的表示。

图2
所有模型对神经和行为基准的预测性

原文链接:

灵长类动物的行为数据

通过定期更新大脑数据的大脑评分来评估和跟踪模型基准的对应关系可以让这个系统更加完善。因此,该团队发布了Brain-Score.org,一个承载神经和行为基准的平台,在这个平台上,可以提交用于视觉处理的ANN,以接收大脑评分及其相对于其他模型的排名,新的实验数据可以自然地纳入其中。

为了获得每个神经元的神经预测性评分,通过计算Pearson相关系数,将预测的响应与测量的神经元响应进行比较。

为了评估一个模型整体表现的好坏,我们将神经V4预测得分、神经IT预测得分和行为I2n预测得分做一个组合计算来得到大脑评分。这里给出的脑分数是这三个分数的平均值。这种方法不能通过不同的分数尺度进行标准化,因此它可能会惩罚低方差的分数,但它也不会对分数的显著差异做出任何假设,这些差异会出现在排名中。

我们使用神经预测性评估区域V4和IT以及使用I2n的行为记录。
目前最好的型号是:V4上的VGG-19,IT上的DenseNet-169和行为上的ResNet-101。
值得注意的是,DenseNet-169,CORnet-S和ResNet-101是所有三个基准测试的强大模型。
V4为0.892,IT为0.817,行为为.497。