接上一篇
P28P30
实验效果-ViT模型的影响
n 性能惊艳: ImageNet-1K 最高 87.8% 。与当前 SOTA 自监督预训练方法相比,对于 ViT -B 的表现结果都很接近。对于 ViT -L 不同方法的结果就存在很大差距,这表明更大模型的挑战是减少过度拟合。 n 再看最后一列,仅使用 ImageNet-1K 数据时, ViT -Huge 模型的最高精确度为 87.8% ,这明显超过了所有在 ImageNet-21K 预训练的 ViT 变种模型。实验效果-参数改变
n 改变各种参数后的对比实验实验效果-Mask方式的影响
n Here each output is from an MAE trained with the specified masking strategy. n Left: random sampling (our default). n Middle: block-wise sampling that removes large random blocks. n Right: grid-wise sampling that keeps one of every four patches.以上为叶梓老师上课讲义,供有基础的朋友或者同行使用,未完,下一篇继续……