open-mmlab · ZhangYuanhan-AI · Jun 8, 2023
diff --git a/configs/_base_/datasets/omnibenchmarkv2_bs32_pil_resize.py b/configs/_base_/datasets/omnibenchmarkv2_bs32_pil_resize.py
@@ -0,0 +1,51 @@
+# dataset settings
+dataset_type = 'ImageNet'
+data_preprocessor = dict(
+    num_classes=1000,
+    # RGB format normalization parameters
+    mean=[123.675, 116.28, 103.53],
+    std=[58.395, 57.12, 57.375],
+    # convert image from BGR to RGB
+    to_rgb=True,
+)
+
+train_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='RandomResizedCrop', scale=224, backend='pillow'),
+    dict(type='RandomFlip', prob=0.5, direction='horizontal'),
+    dict(type='PackInputs'),
+]
+
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='ResizeEdge', scale=256, edge='short', backend='pillow'),
+    dict(type='CenterCrop', crop_size=224),
+    dict(type='PackInputs'),
+]
+
+train_dataloader = dict(
+    batch_size=32,
+    num_workers=4,
+    dataset=dict(
+        type=dataset_type,
+        data_root='data/omnibenchmarkv2/data/activity',
+        ann_file='data/omnibenchmarkv2/meta/activity/train.txt',
+        pipeline=train_pipeline),
+    sampler=dict(type='DefaultSampler', shuffle=True),
+)
+
+val_dataloader = dict(
+    batch_size=32,
+    num_workers=4,
+    dataset=dict(
+        type=dataset_type,
+        data_root='data/omnibenchmarkv2/data/activity',
+        ann_file='data/omnibenchmarkv2/meta/activity/test.txt',
+        pipeline=test_pipeline),
+    sampler=dict(type='DefaultSampler', shuffle=False),
+)
+val_evaluator = dict(type='Accuracy', topk=(1, 5))
+
+# If you want standard test, please manually configure the test dataset
+test_dataloader = val_dataloader
+test_evaluator = val_evaluator
diff --git a/configs/mae/benchmarks/vit-base-p16_4xb2048-linear-coslr-90e_omniv2-activity.py b/configs/mae/benchmarks/vit-base-p16_4xb2048-linear-coslr-90e_omniv2-activity.py
@@ -0,0 +1,83 @@
+_base_ = [
+    '../../_base_/datasets/omnibenchmarkv2_bs32_pil_resize.py',
+    '../../_base_/schedules/imagenet_bs1024_adamw_swin.py',
+    '../../_base_/default_runtime.py'
+]
+
+# dataset settings
+data_preprocessor = dict(
+    num_classes=691,
+)
+
+train_dataloader = dict(batch_size=2048,     
+    dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/activity/meta/train.txt',
+        data_prefix='data/activity/images/'),
+    drop_last=True)
+val_dataloader = dict(
+        dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/activity/meta/val.txt',
+        data_prefix='data/activity/images/'),
+    drop_last=False)
+test_dataloader = dict(
+        dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/activity/meta/test.txt',
+        data_prefix='data/activity/images/'),
+    drop_last=False)
+
+# model settings
+model = dict(
+    type='ImageClassifier',
+    backbone=dict(
+        type='VisionTransformer',
+        arch='base',
+        img_size=224,
+        patch_size=16,
+        frozen_stages=12,
+        out_type='cls_token',
+        final_norm=True,
+        init_cfg=dict(type='Pretrained', checkpoint='/mnt/petrelfs/zhangyuanhan/weights/mae_vit-base-p16_8xb512-fp16-coslr-1600e_in1k_20220825-f7569ca2.pth', prefix="backbone.")),
+    neck=dict(type='ClsBatchNormNeck', input_features=768),
+    head=dict(
+        type='VisionTransformerClsHead',
+        num_classes=691,
+        in_channels=768,
+        loss=dict(type='CrossEntropyLoss'),
+        init_cfg=[dict(type='TruncNormal', layer='Linear', std=0.01)]))
+
+# optimizer
+optim_wrapper = dict(
+    _delete_=True,
+    type='AmpOptimWrapper',
+    optimizer=dict(type='LARS', lr=6.4, weight_decay=0.0, momentum=0.9))
+
+# learning rate scheduler
+param_scheduler = [
+    dict(
+        type='LinearLR',
+        start_factor=1e-4,
+        by_epoch=True,
+        begin=0,
+        end=10,
+        convert_to_iter_based=True),
+    dict(
+        type='CosineAnnealingLR',
+        T_max=80,
+        by_epoch=True,
+        begin=10,
+        end=90,
+        eta_min=0.0,
+        convert_to_iter_based=True)
+]
+
+# runtime settings
+train_cfg = dict(by_epoch=True, max_epochs=90,val_interval=10)
+
+default_hooks = dict(
+    checkpoint=dict(type='CheckpointHook', interval=1, max_keep_ckpts=3),
+    logger=dict(type='LoggerHook', interval=10))
+
+randomness = dict(seed=0, diff_rank_seed=True)
diff --git a/configs/mae/benchmarks/vit-base-p16_4xb2048-linear-coslr-90e_omniv2-bird.py b/configs/mae/benchmarks/vit-base-p16_4xb2048-linear-coslr-90e_omniv2-bird.py
@@ -0,0 +1,83 @@
+_base_ = [
+    '../../_base_/datasets/omnibenchmarkv2_bs32_pil_resize.py',
+    '../../_base_/schedules/imagenet_bs1024_adamw_swin.py',
+    '../../_base_/default_runtime.py'
+]
+
+# dataset settings
+data_preprocessor = dict(
+    num_classes=646,
+)
+
+train_dataloader = dict(batch_size=2048,     
+    dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/bird/meta/train.txt',
+        data_prefix='data/bird/images/'),
+    drop_last=True)
+val_dataloader = dict(
+        dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/bird/meta/val.txt',
+        data_prefix='data/bird/images/'),
+    drop_last=False)
+test_dataloader = dict(
+        dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/bird/meta/test.txt',
+        data_prefix='data/bird/images/'),
+    drop_last=False)
+
+# model settings
+model = dict(
+    type='ImageClassifier',
+    backbone=dict(
+        type='VisionTransformer',
+        arch='base',
+        img_size=224,
+        patch_size=16,
+        frozen_stages=12,
+        out_type='cls_token',
+        final_norm=True,
+        init_cfg=dict(type='Pretrained', checkpoint='/mnt/petrelfs/zhangyuanhan/weights/mae_vit-base-p16_8xb512-fp16-coslr-1600e_in1k_20220825-f7569ca2.pth', prefix="backbone.")),
+    neck=dict(type='ClsBatchNormNeck', input_features=768),
+    head=dict(
+        type='VisionTransformerClsHead',
+        num_classes=646,
+        in_channels=768,
+        loss=dict(type='CrossEntropyLoss'),
+        init_cfg=[dict(type='TruncNormal', layer='Linear', std=0.01)]))
+
+# optimizer
+optim_wrapper = dict(
+    _delete_=True,
+    type='AmpOptimWrapper',
+    optimizer=dict(type='LARS', lr=6.4, weight_decay=0.0, momentum=0.9))
+
+# learning rate scheduler
+param_scheduler = [
+    dict(
+        type='LinearLR',
+        start_factor=1e-4,
+        by_epoch=True,
+        begin=0,
+        end=10,
+        convert_to_iter_based=True),
+    dict(
+        type='CosineAnnealingLR',
+        T_max=80,
+        by_epoch=True,
+        begin=10,
+        end=90,
+        eta_min=0.0,
+        convert_to_iter_based=True)
+]
+
+# runtime settings
+train_cfg = dict(by_epoch=True, max_epochs=90,val_interval=10)
+
+default_hooks = dict(
+    checkpoint=dict(type='CheckpointHook', interval=-1),
+    logger=dict(type='LoggerHook', interval=10))
+
+randomness = dict(seed=0, diff_rank_seed=True)
diff --git a/configs/mae/benchmarks/vit-base-p16_4xb2048-linear-coslr-90e_omniv2-car.py b/configs/mae/benchmarks/vit-base-p16_4xb2048-linear-coslr-90e_omniv2-car.py
@@ -0,0 +1,83 @@
+_base_ = [
+    '../../_base_/datasets/omnibenchmarkv2_bs32_pil_resize.py',
+    '../../_base_/schedules/imagenet_bs1024_adamw_swin.py',
+    '../../_base_/default_runtime.py'
+]
+
+# dataset settings
+data_preprocessor = dict(
+    num_classes=767,
+)
+
+train_dataloader = dict(batch_size=2048,     
+    dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/car/meta/train.txt',
+        data_prefix='data/car/images/'),
+    drop_last=True)
+val_dataloader = dict(
+        dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/car/meta/val.txt',
+        data_prefix='data/car/images/'),
+    drop_last=False)
+test_dataloader = dict(
+        dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/car/meta/test.txt',
+        data_prefix='data/car/images/'),
+    drop_last=False)
+
+# model settings
+model = dict(
+    type='ImageClassifier',
+    backbone=dict(
+        type='VisionTransformer',
+        arch='base',
+        img_size=224,
+        patch_size=16,
+        frozen_stages=12,
+        out_type='cls_token',
+        final_norm=True,
+        init_cfg=dict(type='Pretrained', checkpoint='/mnt/petrelfs/zhangyuanhan/weights/mae_vit-base-p16_8xb512-fp16-coslr-1600e_in1k_20220825-f7569ca2.pth', prefix="backbone.")),
+    neck=dict(type='ClsBatchNormNeck', input_features=768),
+    head=dict(
+        type='VisionTransformerClsHead',
+        num_classes=767,
+        in_channels=768,
+        loss=dict(type='CrossEntropyLoss'),
+        init_cfg=[dict(type='TruncNormal', layer='Linear', std=0.01)]))
+
+# optimizer
+optim_wrapper = dict(
+    _delete_=True,
+    type='AmpOptimWrapper',
+    optimizer=dict(type='LARS', lr=6.4, weight_decay=0.0, momentum=0.9))
+
+# learning rate scheduler
+param_scheduler = [
+    dict(
+        type='LinearLR',
+        start_factor=1e-4,
+        by_epoch=True,
+        begin=0,
+        end=10,
+        convert_to_iter_based=True),
+    dict(
+        type='CosineAnnealingLR',
+        T_max=80,
+        by_epoch=True,
+        begin=10,
+        end=90,
+        eta_min=0.0,
+        convert_to_iter_based=True)
+]
+
+# runtime settings
+train_cfg = dict(by_epoch=True, max_epochs=90,val_interval=10)
+
+default_hooks = dict(
+    checkpoint=dict(type='CheckpointHook', interval=-1),
+    logger=dict(type='LoggerHook', interval=10))
+
+randomness = dict(seed=0, diff_rank_seed=True)
diff --git a/configs/mae/benchmarks/vit-base-p16_4xb2048-linear-coslr-90e_omniv2-consumer_goods.py b/configs/mae/benchmarks/vit-base-p16_4xb2048-linear-coslr-90e_omniv2-consumer_goods.py
@@ -0,0 +1,83 @@
+_base_ = [
+    '../../_base_/datasets/omnibenchmarkv2_bs32_pil_resize.py',
+    '../../_base_/schedules/imagenet_bs1024_adamw_swin.py',
+    '../../_base_/default_runtime.py'
+]
+
+# dataset settings
+data_preprocessor = dict(
+    num_classes=190,
+)
+
+train_dataloader = dict(batch_size=2048,     
+    dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/consumer_goods/meta/train.txt',
+        data_prefix='data/consumer_goods/images/'),
+    drop_last=True)
+val_dataloader = dict(
+        dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/consumer_goods/meta/val.txt',
+        data_prefix='data/consumer_goods/images/'),
+    drop_last=False)
+test_dataloader = dict(
+        dataset=dict(
+        data_root='data/omnibenchmarkv2/',
+        ann_file='annotation/consumer_goods/meta/test.txt',
+        data_prefix='data/consumer_goods/images/'),
+    drop_last=False)
+
+# model settings
+model = dict(
+    type='ImageClassifier',
+    backbone=dict(
+        type='VisionTransformer',
+        arch='base',
+        img_size=224,
+        patch_size=16,
+        frozen_stages=12,
+        out_type='cls_token',
+        final_norm=True,
+        init_cfg=dict(type='Pretrained', checkpoint='/mnt/petrelfs/zhangyuanhan/weights/mae_vit-base-p16_8xb512-fp16-coslr-1600e_in1k_20220825-f7569ca2.pth', prefix="backbone.")),
+    neck=dict(type='ClsBatchNormNeck', input_features=768),
+    head=dict(
+        type='VisionTransformerClsHead',
+        num_classes=190,
+        in_channels=768,
+        loss=dict(type='CrossEntropyLoss'),
+        init_cfg=[dict(type='TruncNormal', layer='Linear', std=0.01)]))
+
+# optimizer
+optim_wrapper = dict(
+    _delete_=True,
+    type='AmpOptimWrapper',
+    optimizer=dict(type='LARS', lr=6.4, weight_decay=0.0, momentum=0.9))
+
+# learning rate scheduler
+param_scheduler = [
+    dict(
+        type='LinearLR',
+        start_factor=1e-4,
+        by_epoch=True,
+        begin=0,
+        end=10,
+        convert_to_iter_based=True),
+    dict(
+        type='CosineAnnealingLR',
+        T_max=80,
+        by_epoch=True,
+        begin=10,
+        end=90,
+        eta_min=0.0,
+        convert_to_iter_based=True)
+]
+
+# runtime settings
+train_cfg = dict(by_epoch=True, max_epochs=90,val_interval=10)
+
+default_hooks = dict(
+    checkpoint=dict(type='CheckpointHook', interval=-1),
+    logger=dict(type='LoggerHook', interval=10))
+
+randomness = dict(seed=0, diff_rank_seed=True)