当前位置:首页 >> 时尚
时尚

Transformer已成新霸主?FAIR等之后设计纯卷积ConvNet,性能反超

发布时间:2025-03-17 12:22 来源:时尚

法。操练从 ResNet 完整的 90 个 epoch 扩充到了 300 个 epoch。

该研究文书工作引入了 AdamW 优立体化容器、Mixup、Cutmix、RandAugment、随机载入(Random Erasing)等多达据强立体化系统设计,以及随机广度和ID平滑(Label Smoothing)等正则立体化方案。这种简立体化的操练方案将 ResNet-50 多达学分析方法的效能从 76.1% 提较高到了 78.8%(+2.7%),这意味着传统 ConvNet 和影像 Transformer 二者之间不小一部分效能差别有可能是操练擅于引致的。

构造设计

该研究文书工作第二步分析了当前 Swin Transformer 的互联网构造设计。Swin Transformer 引入值得注意差分人工智能的多下一阶段构造设计,每个下一阶段不具完全相近的构造三幅灵敏度。其当中两个不可忽视的构造设计权衡是下一阶段近似值比和都从基本。

一层面,ResNet 当中跨下一阶段近似值分布的完整构造设计不小素质上是受物理影响的。另一层面,Swin-T 遵循相近的原则,但下一阶段近似值比略有完全相近。该研究文书工作将每个下一阶段的块多达从 ResNet-50 当中的 (3, 4, 6, 3) 调整为 (3, 3, 9, s3),使得 FLOPs 与 Swin-T 对齐。这将多达学分析方法准确度从 78.8% 提较高到了 79.4%。

举例来说,都从基本全面性关注互联网如何处理转换成缩放。由于自然缩放当中固有的冗余特质,平常基本在常规 ConvNet 和影像 Transformer 当中积极地将转换成缩放下取样到须要的构造三幅不等。常规 ResNet 当中构成一个归一立体化为 2 的 7×7 差一组和一个最大池塘,这让转换成缩放可进行 4 倍下取样。而影像 Transformer 引入了「patchify」手段,Swin Transformer 虽然引入值得注意的「patchify」层,但引入非常小的 patch 不等来适于基本的多下一阶段构造设计。该研究文书工作将 ResNet 都从基本替换为引入 4×4、归一立体化为 4 的差一组做到的 patchify 层,准确度从 79.4% 改善为 79.5%。这暗示 ResNet 的都从基本可以用非常非常简单的 patchify 层替代。

ResNeXt-ify

第三步该研究文书工作想法引入 ResNeXt [82] 的初衷,ResNeXt 比平常的 ResNet 不具非常好的 FLOPs / 准确度慎重考虑。基本缓冲容器是分一组差分,其当中差分滤波容器被分成完全相近的一组。ResNeXt 的个人兴趣原则是「引入非常多的一组,扩大窄」。非常准确地说,ResNeXt 对停滞块当中的 3×3 差一组引入分一组差分。由于明显减少了 FLOPs,因此这扩充了互联网窄以补偿容量伤亡。

该研究文书工作引入分一组差分的一种特殊情况——广度差分(depthwise convolution),其当中一组多达等于走廊多达。广度差分已被 MobileNet [32] 和 Xception [9] 引入。人类学家注意到,广度差界定似自安全感当中的加权平均求和配置,在每个走廊的改进进行配置,即仅在生活空间一维上混电子邮件。广度差分的引入有效地减少了互联网的 FLOPs。按照 ResNeXt 当中设想的手段,该研究文书工作将互联网窄增加到与 Swin-T 的走廊多达相近(从 64 增加到 96)。随着 FLOPs (5.3G) 的增加,互联网效能超越了 80.5%。

反之亦然停滞

Transformer 当中一个不可忽视的构造设计是创建了反之亦然停滞,即 MLP 块的隐藏一维比转换成一维宽四倍,如下三幅 4 简述。奇怪的是,Transformer 的这种构造设计与差分人工智能当中引入的扩充比为 4 的反之亦然停滞构造设计有关联。

因此该研究文书工作第四步揭示了反之亦然停滞的构造设计。如下三幅 3 简述,尽管广度差一组的 FLOPs 增加了,但由于下取样残差块的 shortcut 1×1 差一组的 FLOPs 明显减低,整个互联网的 FLOPs 减低到 4.6G。奇怪的是,这则会让效能从 80.5% 稍稍提较高至 80.6%。在 ResNet-200 / Swin-B 方案当中,这一步导致了非常多的效能改善——从 81.9% 改善到 82.6%,同时也减低了 FLOPs。

差分反应容器不等

第五步该研究文书工作揭示了大型差分反应容器的作用。影像 Transformer 最明显的特特质是其非暂时性自安全感,每一层都不具全局思绪野。虽然已有差分人工智能引入了大差分反应容器,但白银常规(VGGNet [62] )是堆叠小差分反应容器(3×3)的差一组。尽管 Swin Transformer 继续将暂时性站内转用到自安全感块当中,但站内不等至少为 7×7,明显大于 3×3 的 ResNe(X)t 差分反应容器不等。因此该研究文书工作继续检视了在差分人工智能当中引入大差分反应容器的作用。

微微行进广度差一组。要揭示大差分反应容器,一个理应是微微行进广度差一组的位置(如三幅 3(c) 简述)。值得注意地,Transformer 当中也将 MSA 块摆放在 MLP 层之前。由于仍然设立一个反之亦然停滞块,适合于、低效的模块立体化(MSA、大差分反应容器)走廊变少,而较高效、外围的 1×1 层将进行繁重的文书工作。因此这个当两边步骤将 FLOPs 减低到 4.1G,引致效能暂时减少到 79.9%。

增大差分反应容器。经过上述作准备文书工作,引入非常大的差分反应容器是不具明显绝对优势的。该研究文书工作想法了几种差分反应容器不等:3、5、7、9、11。互联网的效能从 79.9% (3×3) 提较高为 80.6% (7×7),而互联网的 FLOPs 大致保有相同。

此外,人类学家观察到较大的差分反应容器的好处是在 7×7 处则会超越饱和点,并在大容量多达学分析方法当中检验了这种行为。当差分反应容器不等超过 7×7 时,ResNet-200 程序多达学分析方法没有人展示借助于借助于必要性的放大器。因此该研究文书工作在每个块当中都引入了 7×7 广度差分。

至此,互联网基本的系统升级调整仍然进行。

尺度构造设计

下一步人类学家洞察了一些尺度上的基本差别——这里的基本上揭示都是在层级进行的,全面性是酪氨酸线特质和初始值层的实际选择。

用 GELU 替代 ReLU。随着时间的推移,人类学家仍然联合开发了许多酪氨酸线特质,但 ReLU 由于其非常简单特质和有效特质,基本上在 ConvNet 当中广泛引入。ReLU 也被用作完整 Transformer 当中的酪氨酸线特质。GELU 可以被认为是 ReLU 的非常平滑值得注意于,被用于最先进的 Transformer,包括 Google 的 BERT 和 OpenAI 的 GPT-2 ,以及 ViT 等。该研究文书工作挖掘借助于 ReLU 在 ConvNet 当中也可以用 GELU 取而代之,准确度保有相同(80.6%)。

非常少的酪氨酸线特质。Transformer 和 ResNet 块二者之间的一个小相异是 Transformer 的酪氨酸线特质更少。如三幅 4 简述,该研究文书工作从残差块当中抵消了所有 GELU 层,除了在两个 1×1 层二者之间的 GELU 层,这是复制了 Transformer 块的画风。这个每一次将结果提较高了 0.7% 到 81.3%,无论如何与 Swin-T 效能相当。

非常少的初始值层。Transformer 块举例来说也不具更少的初始值层。在这里,该研究文书工作删除了两个 BatchNorm (BN) 层,在 conv 1 × 1 层之前只留下一个 BN 层。这必要性将效能改善至 81.4%,仍然超过了 Swin-T 的结果。请注意,该研究文书工作的每个块的初始值层比 Transformer 还要少,研究文书工作人员挖掘借助于在块的标题附加一个额外的 BN 层并不用提较高效能。

用 LN 取而代之 BN。BatchNorm(BN)是 ConvNet 当中的不可忽视一借助于,因为它提较高了收敛特质并减低了过拟合。然而,BN 也有许多错综适合于的东西,有可能则会对多达学分析方法的效能激发不利影响 。人类学家曾多次想法联合开发替代方案,但 BN 基本上是大多多达影像训练任务的颇受欢迎分析方法。在完整 ResNet 当中反之亦然用 LN 取而代之 BN 效能欠佳。随着互联网基本和操练系统设计的简立体化,该研究文书工作继续检视引入 LN 取而代之 BN 的影响,计算借助于来 ConvNet 多达学分析方法在引入 LN 操练时没有人任何困难;无论如何,效能则会简立体化一些,获取了 81.5% 的准确度。

分离式(Separate)下取样层。在 ResNet 当中,生活空间下取样是通过每个 stage 开始时的残差块来做到的,引入 stride =2 的 3×3 差分。在 Swin Transformer 当中,在各个 stage 二者之间附加了一个分离式下取样层。该研究文书工作揭示了一种值得注意的手段,在该手段当中,人类学家引入 stride =2 的 2×2 差一组进行生活空间下取样。有点失望的是,这种改变则会引致完全相近的操练结果。必要性调查暗示,在生活空间灵敏度发生变立体化的以外附加初始值层有助于不稳定的操练。该研究文书工作可以将准确度提较高到 82.0%,大大超过 Swin-T 的 81.3%。该研究文书工作引入分离式下取样层,得到了最后多达学分析方法 ConvNeXt。ResNet、Swin 和 ConvNeXt 块构造的非常如三幅 4 简述。

ResNet-50、Swin-T 和 ConvNeXt-T 的详细基本法规的非常如列于 9 简述。

物理

ImageNet 物理分析报告

该研究文书工作借助于了完全相近的 ConvNeXt 值得注意于,ConvNeXtT/S/B/L,与 Swin-T/S/B/L 不具相似的适合于特质,可进行对标物理分析报告。此外,该研究文书工作还借助于了一个非常大的 ConvNeXt-XL 来必要性次测试 ConvNeXt 的可用特质。完全相近值得注意于多达学分析方法的相异在于走廊多达、模块立体化多达,详细电子邮件如下:

Results ImageNet-1K:下列于是 ConvNeXt 与 Transformer 值得注意于 DeiT、Swin Transformer,以及 RegNets 和 EfficientNets 的结果非常。

由结果可得:ConvNeXt 在准确度 - 近似值慎重考虑以及推理货运量层面获取了与 ConvNet 基线(RegNet 和 EfficientNet )不具竞争能力的结果;ConvNeXt 的效能也下半年优于不具值得注意适合于特质的 Swin Transformer;与 Swin Transformers 相比,ConvNeXts 在没有人诸如移位站内或一般来说位置偏置等主要用途模块立体化的情况下也不具非常较高的货运量。

ImageNet-22K:下列于(列于头参照入朝)当中展示了从 ImageNet-22K 实操练当中阶段性的多达学分析方法的结果。这些物理很不可忽视,因为人们视作影像 Transformer 不具更少的总结偏置,因此在大规模实操练时可以比 ConvNet 展示借助于非常好。该研究文书工作暗示,在引入大型多达据集进行实操练时,正确构造设计的 ConvNet 并胜过影像 Transformer——ConvNeXt 的效能基本上与值得注意不等的 Swin Transformer 相当或非常好,货运量略较高。此外,该研究文书工作设想的 ConvNeXt-XL 多达学分析方法做到了 87.8% 的准确度——在 384_2 处比 ConvNeXt-L 有了相当大的简立体化,说明了 ConvNeXt 是可扩充的基本。

Isotropic ConvNeXt 与 ViT 对比:在增温物理当中,人类学家引入与 ViT-S/B/L (384/768/1024) 相近的构造大小借助于 isotropic ConvNeXt-S/B/L。广度设立为 18/18/36 以匹配参多达和 FLOP 的多达量,块构造保有相同(三幅 4)。ImageNet-1K 在 224_2 灵敏度下的结果如列于 2 简述。结果显示 ConvNeXt 的效能与 ViT 相当,这暗示 ConvNeXt 块构造设计在用于非一组多达学分析方法时仍不具竞争能力。

上游训练任务分析报告

在 COCO 上的期望检验和重新一组合研究文书工作:该研究文书工作以 ConvNeXt 为都从,在 COCO 多达据集上阶段性 Mask R-CNN 和 Cascade Mask R-CNN 。列于 3 非常了 Swin Transformer、ConvNeXt 和传统 ConvNet(如 ResNeXt)在期望检验和程序当中重新一组合上的结果。结果暗示在完全相近的多达学分析方法适合于特质当中,ConvNeXt 的效能与 Swin Transformer 相当或非常好。

基于 ADE20K 的文法重新一组合:在列于 4 当中,该研究文书工作报告了不具多次测试的检验 mIoU。ConvNeXt 多达学分析方法可以在完全相近的多达学分析方法容量上做到不具竞争能力的效能,必要性检验了 ConvNeXt 构造设计的有效特质。

秦皇岛哪个医院治疗白癜风最好
南通白癜风医院
宝鸡哪里治白癜风最好
整容整形
新冠阳性吃什么药效果最好
艾得辛和羟氯喹哪个见效快
英太青止痛蓝白盒是什么
藿香正气口服液和藿香正气水怎么选择
相关阅读

郭艾伦40分统治季后赛,对手主帅哭诉防不住,全国大半一人能防他

40+10!这数据来自全都国性主力球员,而且是在进攻和侧击拼刺刀的世界大赛中的! 世界大赛40分10抢断,这是全都国性主力球员第一次! 他的昵称是李安德森。...

水滴公司发布一季度净值 盈利1.05亿元

北京晚报贝壳财经传真(记者潘亦纯)6月初15日,水波Corporation发布2022财年上半年净资产。近据库结果显示,水波Corporation第二季度净民营企业达6.49亿元,比前一个季度增长7....

巴黎开出高薪留姆巴佩:1.5亿签字费加有4000万年薪!

里昂队内的德国球王姆巴默一直想要离队。而里昂则想要决意遗留下姆巴默,不过此前里昂给姆巴默上路高额的续约,全部被守门员坚决了。但是里昂依然没有打消,他们上路了一份超级续约来婉拒姆巴默,他们想要姆巴默和球...

今晚浙江对阵广东赛后说明了!稠州是太想赢反而保守,吴前没顶住压力

大家好,欢迎来到兔兔说球。看书评的同时还是想要大家能给兔兔一个免费的关注! 今晚杭州vs广州该场总结! 第一: 杭州稠州的银行离重大胜利就差一...

足球——欧罗巴杯赛:巴萨战平法兰克福

新华网截图,外代,2022年4年末8日 4年末7日,巴塞罗那中队门将特尔施特上端(任左当年)与杜伊斯堡中队后卫图塔拼抢。 同日,在瑞典杜伊斯堡参加的2021-2022...

友情链接