zhb10086
/

relation_afford_pretrained_weights_morevg

Model card Files Files and versions Community

zhb10086 commited on Nov 12, 2024

Commit

9968cfd

verified ·

1 Parent(s): 5c56007

Upload 8 files

Browse files

Files changed (8) hide show

20240921_173230.log +1106 -0
20240921_173230.log.json +0 -0
epoch_16.pth +3 -0
epoch_17.pth +3 -0
epoch_18.pth +3 -0
epoch_19.pth +3 -0
epoch_20.pth +3 -0
relation_afford_r101_caffe_c4_1x_regrad_vmrd_metagraspnet_vrd_vg_class_agnostic.py +1070 -0

20240921_173230.log ADDED Viewed

	@@ -0,0 +1,1106 @@

+2024-09-21 17:32:30,446 - mmdet - INFO - Environment info:
+------------------------------------------------------------
+sys.platform: linux
+Python: 3.8.19 (default, Mar 20 2024, 19:58:24) [GCC 11.2.0]
+CUDA available: True
+GPU 0,1,2,3,4,5,6,7: NVIDIA RTX A5000
+CUDA_HOME: /data/home/hanbo/cuda-11.6
+NVCC: Cuda compilation tools, release 11.6, V11.6.55
+GCC: gcc (Ubuntu 9.4.0-1ubuntu1~20.04.2) 9.4.0
+PyTorch: 1.12.1+cu116
+PyTorch compiling details: PyTorch built with:
+  - GCC 9.3
+  - C++ Version: 201402
+  - Intel(R) Math Kernel Library Version 2020.0.0 Product Build 20191122 for Intel(R) 64 architecture applications
+  - Intel(R) MKL-DNN v2.6.0 (Git Hash 52b5f107dd9cf10910aaa19cb47f3abf9b349815)
+  - OpenMP 201511 (a.k.a. OpenMP 4.5)
+  - LAPACK is enabled (usually provided by MKL)
+  - NNPACK is enabled
+  - CPU capability usage: AVX2
+  - CUDA Runtime 11.6
+  - NVCC architecture flags: -gencode;arch=compute_37,code=sm_37;-gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86
+  - CuDNN 8.3.2  (built against CUDA 11.5)
+  - Magma 2.6.1
+  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=11.6, CUDNN_VERSION=8.3.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -fabi-version=11 -Wno-deprecated -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -fopenmp -DNDEBUG -DUSE_KINETO -DUSE_FBGEMM -DUSE_QNNPACK -DUSE_PYTORCH_QNNPACK -DUSE_XNNPACK -DSYMBOLICATE_MOBILE_DEBUG_HANDLE -DEDGE_PROFILER_USE_KINETO -O2 -fPIC -Wno-narrowing -Wall -Wextra -Werror=return-type -Wno-missing-field-initializers -Wno-type-limits -Wno-array-bounds -Wno-unknown-pragmas -Wno-unused-parameter -Wno-unused-function -Wno-unused-result -Wno-unused-local-typedefs -Wno-strict-overflow -Wno-strict-aliasing -Wno-error=deprecated-declarations -Wno-stringop-overflow -Wno-psabi -Wno-error=pedantic -Wno-error=redundant-decls -Wno-error=old-style-cast -fdiagnostics-color=always -faligned-new -Wno-unused-but-set-variable -Wno-maybe-uninitialized -fno-math-errno -fno-trapping-math -Werror=format -Werror=cast-function-type -Wno-stringop-overflow, LAPACK_INFO=mkl, PERF_WITH_AVX=1, PERF_WITH_AVX2=1, PERF_WITH_AVX512=1, TORCH_VERSION=1.12.1, USE_CUDA=ON, USE_CUDNN=ON, USE_EXCEPTION_PTR=1, USE_GFLAGS=OFF, USE_GLOG=OFF, USE_MKL=ON, USE_MKLDNN=OFF, USE_MPI=OFF, USE_NCCL=ON, USE_NNPACK=ON, USE_OPENMP=ON, USE_ROCM=OFF,
+TorchVision: 0.13.1+cu116
+OpenCV: 4.10.0
+MMCV: 1.7.2
+MMCV Compiler: GCC 9.3
+MMCV CUDA Compiler: 11.6
+MMDetection: 2.28.2+d592e33
+------------------------------------------------------------
+2024-09-21 17:32:31,819 - mmdet - INFO - Distributed training: True
+2024-09-21 17:32:33,172 - mmdet - INFO - Config:
+norm_cfg = dict(
+    type='BN',
+    requires_grad=False,
+    mean=[123.675, 116.28, 103.53],
+    std=[1.0, 1.0, 1.0],
+    to_rgb=True)
+model = dict(
+    type='FasterRCNNRelAfford',
+    backbone=dict(
+        type='mmdet.ResNet',
+        depth=101,
+        num_stages=3,
+        strides=(1, 2, 2),
+        dilations=(1, 1, 1),
+        out_indices=(2, ),
+        frozen_stages=1,
+        norm_cfg=dict(type='BN', requires_grad=False),
+        norm_eval=True,
+        style='caffe',
+        init_cfg=dict(
+            type='Pretrained',
+            checkpoint='open-mmlab://detectron2/resnet101_caffe')),
+    rpn_head=dict(
+        type='mmdet.RPNHead',
+        in_channels=1024,
+        feat_channels=1024,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8, 16, 32],
+            ratios=[0.33, 0.5, 1.0, 2.0, 3.0],
+            strides=[16]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='mmdet.CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(type='mmdet.L1Loss', loss_weight=1.0)),
+    roi_head=None,
+    child_head=dict(
+        type='invigorate.PairedRoIHead',
+        shared_head=dict(
+            type='invigorate.PairedResLayer',
+            depth=50,
+            stage=3,
+            stride=1,
+            style='caffe',
+            norm_eval=False,
+            share_weights=False),
+        paired_roi_extractor=dict(
+            type='invigorate.VMRNPairedRoIExtractor',
+            roi_layer=dict(type='RoIPool', output_size=7),
+            out_channels=1024,
+            featmap_strides=[16]),
+        relation_head=dict(
+            type='invigorate.BBoxPairHead',
+            with_avg_pool=True,
+            roi_feat_size=7,
+            in_channels=2048,
+            num_relations=1,
+            loss_cls=dict(
+                type='mmdet.CrossEntropyLoss',
+                use_sigmoid=False,
+                loss_weight=1.0))),
+    leaf_head=dict(
+        type='mmdet.StandardRoIHead',
+        shared_head=dict(
+            type='mmdet.ResLayer',
+            depth=50,
+            stage=3,
+            stride=1,
+            style='caffe',
+            norm_cfg=dict(type='BN', requires_grad=False),
+            norm_eval=True),
+        bbox_roi_extractor=dict(
+            type='mmdet.SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=1024,
+            featmap_strides=[16]),
+        bbox_head=dict(
+            type='mmdet.BBoxHead',
+            with_avg_pool=True,
+            with_reg=False,
+            roi_feat_size=7,
+            in_channels=2048,
+            num_classes=2,
+            loss_cls=dict(
+                type='mmdet.CrossEntropyLoss',
+                use_sigmoid=False,
+                loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_pre=12000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.5,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.5,
+                match_low_quality=False,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.25,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=True),
+            pos_weight=-1,
+            debug=False),
+        child_head=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.7,
+                match_low_quality=False,
+                ignore_iof_thr=-1),
+            relation_sampler=dict(
+                type='RandomRelationSampler',
+                num=32,
+                pos_fraction=0.5,
+                cls_ratio_ub=1.0,
+                add_gt_as_proposals=True,
+                num_relation_cls=1,
+                neg_id=0),
+            pos_weight=-1,
+            online_data=True,
+            online_start_iteration=0),
+        leaf_head=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.5,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.5,
+                match_low_quality=False,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=64,
+                pos_fraction=0.25,
+                neg_pos_ub=3.0,
+                add_gt_as_proposals=True),
+            pos_weight=-1,
+            debug=False)),
+    test_cfg=dict(
+        rpn=dict(
+            nms_pre=6000,
+            max_per_img=300,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.3),
+            max_per_img=100),
+        child_head=dict(
+            bbox_score_thr=0.5, verbose_relation=False, average_scores=False),
+        leaf_head=dict(score_thr=0.5, nms=None, max_per_img=100)))
+dataset_type = 'REGRADAffordDataset'
+data_root = 'data/regrad/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[1.0, 1.0, 1.0], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile', to_float32=True),
+    dict(
+        type='LoadAnnotationsCustom',
+        keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(
+        type='RandomCrop', crop_type='random_keep', allow_negative_crop=False),
+    dict(type='Expand', mean=[123.675, 116.28, 103.53], ratio_range=(1, 2)),
+    dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[1.0, 1.0, 1.0],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(
+        type='DefaultFormatBundleCustom',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+              'gt_relleaves']),
+    dict(
+        type='Collect',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadRelationProposals'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1000, 600),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[1.0, 1.0, 1.0],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img', 'relation_proposals'])
+        ])
+]
+data = dict(
+    train=dict(
+        _delete_=True,
+        type='ConcatDataset',
+        datasets=[
+            dict(
+                type='REGRADAffordDataset',
+                data_root='data/regrad/',
+                meta_info_file='dataset_train_5k/meta_infos.json',
+                ann_file='dataset_train_5k/objects.json',
+                img_prefix='dataset_train_5k/RGBImages',
+                seg_prefix='dataset_train_5k/SegmentationImages',
+                depth_prefix='dataset_train_5k/DepthImages',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(type='PhotoMetricDistortion'),
+                    dict(
+                        type='RandomCrop',
+                        crop_type='random_keep',
+                        allow_negative_crop=False),
+                    dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                min_pos_relation=1,
+                class_agnostic=True),
+            dict(
+                type='MetaGraspNetAffordDataset',
+                data_root='data/metagraspnet/sim/',
+                meta_info_file='meta_infos_train.json',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(type='PhotoMetricDistortion'),
+                    dict(
+                        type='RandomCrop',
+                        crop_type='random_keep',
+                        allow_negative_crop=False),
+                    dict(
+                        type='Expand',
+                        mean=[123.675, 116.28, 103.53],
+                        ratio_range=(1, 2)),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                min_pos_relation=1,
+                class_agnostic=True),
+            dict(
+                type='VMRDAffordDataset',
+                ann_file='data/vmrd/ImageSets/Main/trainval.txt',
+                img_prefix='data/vmrd/',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(type='PhotoMetricDistortion'),
+                    dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                class_agnostic=True),
+            dict(
+                type='VRDAffordDataset',
+                data_root='data/vrd/',
+                ann_file='sg_dataset/sg_train_annotations.json',
+                img_prefix='sg_dataset/sg_train_images/',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                class_agnostic=True),
+            dict(
+                type='VGAffordDataset',
+                data_root='data/vg/downloads',
+                ann_file='relationships.json',
+                img_prefix='',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                class_agnostic=True)
+        ],
+        separate_eval=True,
+        class_agnostic=True),
+    val=dict(
+        _delete_=True,
+        type='ConcatDataset',
+        datasets=[
+            dict(
+                type='REGRADAffordDataset',
+                data_root='data/regrad/',
+                using_depth=False,
+                using_gt_proposals=True,
+                meta_info_file='dataset_seen_val_1k/meta_infos.json',
+                ann_file='dataset_seen_val_1k/objects.json',
+                img_prefix='dataset_seen_val_1k/RGBImages',
+                seg_prefix='dataset_seen_val_1k/SegmentationImages',
+                depth_prefix='dataset_seen_val_1k/DepthImages',
+                test_mode=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True,
+                max_sample_num=1000),
+            dict(
+                type='VMRDAffordDataset',
+                ann_file='data/vmrd/ImageSets/Main/test.txt',
+                img_prefix='data/vmrd/',
+                using_gt_proposals=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True)
+        ],
+        separate_eval=True,
+        class_agnostic=True),
+    test=dict(
+        _delete_=True,
+        type='ConcatDataset',
+        datasets=[
+            dict(
+                type='REGRADAffordDataset',
+                data_root='data/regrad/',
+                using_depth=False,
+                using_gt_proposals=True,
+                meta_info_file='dataset_seen_val_1k/meta_infos.json',
+                ann_file='dataset_seen_val_1k/objects.json',
+                img_prefix='dataset_seen_val_1k/RGBImages',
+                seg_prefix='dataset_seen_val_1k/SegmentationImages',
+                depth_prefix='dataset_seen_val_1k/DepthImages',
+                test_mode=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True,
+                max_sample_num=1000),
+            dict(
+                type='VMRDAffordDataset',
+                ann_file='data/vmrd/ImageSets/Main/test.txt',
+                img_prefix='data/vmrd/',
+                using_gt_proposals=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True)
+        ],
+        separate_eval=True,
+        class_agnostic=True),
+    samples_per_gpu=4,
+    workers_per_gpu=2)
+evaluation = dict(interval=1, metric=['mAP', 'ImgAcc'])
+optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0001)
+optimizer_config = dict(grad_clip=dict(max_norm=100, norm_type=2))
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=4000,
+    warmup_ratio=0.001,
+    step=[12, 18])
+runner = dict(type='EpochBasedRunner', max_epochs=20)
+checkpoint_config = dict(interval=1, max_keep_ckpts=5)
+log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+opencv_num_threads = 0
+mp_start_method = 'fork'
+auto_scale_lr = dict(enable=False, base_batch_size=16)
+mmdet = None
+mmdet_root = '/data/home/hanbo/projects/cloud_services/service/vmrn/vmrn_models/mmdetection/mmdet'
+test_with_object_detector = False
+test_crop_config = (174, 79, 462, 372)
+kinect_img_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadRelationProposals'),
+    dict(
+        type='FixedCrop',
+        crop_type='absolute',
+        top_left=(174, 79),
+        bottom_right=(462, 372)),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1000, 600),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[1.0, 1.0, 1.0],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img', 'relation_proposals'])
+        ])
+]
+seen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_seen_val_1k/meta_infos.json',
+    ann_file='dataset_seen_val_1k/objects.json',
+    img_prefix='dataset_seen_val_1k/RGBImages',
+    seg_prefix='dataset_seen_val_1k/SegmentationImages',
+    depth_prefix='dataset_seen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+unseen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_unseen_val_1k/meta_infos.json',
+    ann_file='dataset_unseen_val_1k/objects.json',
+    img_prefix='dataset_unseen_val_1k/RGBImages',
+    seg_prefix='dataset_unseen_val_1k/SegmentationImages',
+    depth_prefix='dataset_unseen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+real_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='real/meta_infos.json',
+    ann_file='real/objects.json',
+    img_prefix='real/RGBImages',
+    img_suffix='png',
+    depth_prefix='real/DepthImages',
+    test_mode=True,
+    test_gt_bbox_offset=(174, 79),
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='FixedCrop',
+            crop_type='absolute',
+            top_left=(174, 79),
+            bottom_right=(462, 372)),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True)
+regrad_datatype = 'REGRADAffordDataset'
+regrad_root = 'data/regrad/'
+vmrd_datatype = 'VMRDAffordDataset'
+vmrd_root = 'data/vmrd/'
+vmrd_train = dict(
+    type='VMRDAffordDataset',
+    ann_file='data/vmrd/ImageSets/Main/trainval.txt',
+    img_prefix='data/vmrd/',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='PhotoMetricDistortion'),
+        dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    class_agnostic=True)
+regrad_train = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    meta_info_file='dataset_train_5k/meta_infos.json',
+    ann_file='dataset_train_5k/objects.json',
+    img_prefix='dataset_train_5k/RGBImages',
+    seg_prefix='dataset_train_5k/SegmentationImages',
+    depth_prefix='dataset_train_5k/DepthImages',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='PhotoMetricDistortion'),
+        dict(
+            type='RandomCrop',
+            crop_type='random_keep',
+            allow_negative_crop=False),
+        dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    min_pos_relation=1,
+    class_agnostic=True)
+metagraspnet_sim_train = dict(
+    type='MetaGraspNetAffordDataset',
+    data_root='data/metagraspnet/sim/',
+    meta_info_file='meta_infos_train.json',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='PhotoMetricDistortion'),
+        dict(
+            type='RandomCrop',
+            crop_type='random_keep',
+            allow_negative_crop=False),
+        dict(
+            type='Expand', mean=[123.675, 116.28, 103.53], ratio_range=(1, 2)),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    min_pos_relation=1,
+    class_agnostic=True)
+vgvrd_train_pipeline = [
+    dict(type='LoadImageFromFile', to_float32=True),
+    dict(
+        type='LoadAnnotationsCustom',
+        keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[1.0, 1.0, 1.0],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(
+        type='DefaultFormatBundleCustom',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+              'gt_relleaves']),
+    dict(
+        type='Collect',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'])
+]
+vrd_train = dict(
+    type='VRDAffordDataset',
+    data_root='data/vrd/',
+    ann_file='sg_dataset/sg_train_annotations.json',
+    img_prefix='sg_dataset/sg_train_images/',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    class_agnostic=True)
+vg_train = dict(
+    type='VGAffordDataset',
+    data_root='data/vg/downloads',
+    ann_file='relationships.json',
+    img_prefix='',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    class_agnostic=True)
+real_test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadRelationProposals'),
+    dict(
+        type='FixedCrop',
+        crop_type='absolute',
+        top_left=(174, 79),
+        bottom_right=(462, 372)),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1000, 600),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[1.0, 1.0, 1.0],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img', 'relation_proposals'])
+        ])
+]
+regrad_seen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_seen_val_1k/meta_infos.json',
+    ann_file='dataset_seen_val_1k/objects.json',
+    img_prefix='dataset_seen_val_1k/RGBImages',
+    seg_prefix='dataset_seen_val_1k/SegmentationImages',
+    depth_prefix='dataset_seen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+regrad_unseen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_unseen_val_1k/meta_infos.json',
+    ann_file='dataset_unseen_val_1k/objects.json',
+    img_prefix='dataset_unseen_val_1k/RGBImages',
+    seg_prefix='dataset_unseen_val_1k/SegmentationImages',
+    depth_prefix='dataset_unseen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+regrad_real_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='real/meta_infos.json',
+    ann_file='real/objects.json',
+    img_prefix='real/RGBImages',
+    img_suffix='png',
+    depth_prefix='real/DepthImages',
+    test_mode=True,
+    test_gt_bbox_offset=(174, 79),
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='FixedCrop',
+            crop_type='absolute',
+            top_left=(174, 79),
+            bottom_right=(462, 372)),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True)
+vmrd_val_dataset = dict(
+    type='VMRDAffordDataset',
+    ann_file='data/vmrd/ImageSets/Main/test.txt',
+    img_prefix='data/vmrd/',
+    using_gt_proposals=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True)
+train_sampler = dict(
+    type='DistributedWeightedSampler',
+    weights=[0.1, 0.1, 0.05, 0.05, 0.7],
+    sample_per_epoch=150000,
+    shuffle=True)
+work_dir = './work_dirs/relation_afford_r101_caffe_c4_1x_regrad_vmrd_metagraspnet_vrd_vg_class_agnostic'
+gpu_ids = range(0, 8)

20240921_173230.log.json ADDED Viewed

The diff for this file is too large to render. See raw diff

epoch_16.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57843004a514095bbedf8f99328d2a2f76919a3619ebd321d1ede68026731940
+size 909495892

epoch_17.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3734323578d29b58043eecfc969f726e789ad029b92d52a8b4702a7b25c1e64a
+size 909495892

epoch_18.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6c786bd32aa51e14988b63467163e29941d976cc5a6b9dde100468c5b3ecd98
+size 909495892

epoch_19.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01b04bbb288a755d88ab3b7321e71c1b7a36b205e5857a8bd8c9829a21e0bc08
+size 909495892

epoch_20.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3bccd494e3ac72b27b8bf3fa27f864aa0d0305bee772e20467b9ea7fb51117f1
+size 909495892

relation_afford_r101_caffe_c4_1x_regrad_vmrd_metagraspnet_vrd_vg_class_agnostic.py ADDED Viewed

	@@ -0,0 +1,1070 @@

+norm_cfg = dict(
+    type='BN',
+    requires_grad=False,
+    mean=[123.675, 116.28, 103.53],
+    std=[1.0, 1.0, 1.0],
+    to_rgb=True)
+model = dict(
+    type='FasterRCNNRelAfford',
+    backbone=dict(
+        type='mmdet.ResNet',
+        depth=101,
+        num_stages=3,
+        strides=(1, 2, 2),
+        dilations=(1, 1, 1),
+        out_indices=(2, ),
+        frozen_stages=1,
+        norm_cfg=dict(type='BN', requires_grad=False),
+        norm_eval=True,
+        style='caffe',
+        init_cfg=dict(
+            type='Pretrained',
+            checkpoint='open-mmlab://detectron2/resnet101_caffe')),
+    rpn_head=dict(
+        type='mmdet.RPNHead',
+        in_channels=1024,
+        feat_channels=1024,
+        anchor_generator=dict(
+            type='AnchorGenerator',
+            scales=[8, 16, 32],
+            ratios=[0.33, 0.5, 1.0, 2.0, 3.0],
+            strides=[16]),
+        bbox_coder=dict(
+            type='DeltaXYWHBBoxCoder',
+            target_means=[0.0, 0.0, 0.0, 0.0],
+            target_stds=[1.0, 1.0, 1.0, 1.0]),
+        loss_cls=dict(
+            type='mmdet.CrossEntropyLoss', use_sigmoid=True, loss_weight=1.0),
+        loss_bbox=dict(type='mmdet.L1Loss', loss_weight=1.0)),
+    roi_head=None,
+    child_head=dict(
+        type='invigorate.PairedRoIHead',
+        shared_head=dict(
+            type='invigorate.PairedResLayer',
+            depth=50,
+            stage=3,
+            stride=1,
+            style='caffe',
+            norm_eval=False,
+            share_weights=False),
+        paired_roi_extractor=dict(
+            type='invigorate.VMRNPairedRoIExtractor',
+            roi_layer=dict(type='RoIPool', output_size=7),
+            out_channels=1024,
+            featmap_strides=[16]),
+        relation_head=dict(
+            type='invigorate.BBoxPairHead',
+            with_avg_pool=True,
+            roi_feat_size=7,
+            in_channels=2048,
+            num_relations=1,
+            loss_cls=dict(
+                type='mmdet.CrossEntropyLoss',
+                use_sigmoid=False,
+                loss_weight=1.0))),
+    leaf_head=dict(
+        type='mmdet.StandardRoIHead',
+        shared_head=dict(
+            type='mmdet.ResLayer',
+            depth=50,
+            stage=3,
+            stride=1,
+            style='caffe',
+            norm_cfg=dict(type='BN', requires_grad=False),
+            norm_eval=True),
+        bbox_roi_extractor=dict(
+            type='mmdet.SingleRoIExtractor',
+            roi_layer=dict(type='RoIAlign', output_size=7, sampling_ratio=0),
+            out_channels=1024,
+            featmap_strides=[16]),
+        bbox_head=dict(
+            type='mmdet.BBoxHead',
+            with_avg_pool=True,
+            with_reg=False,
+            roi_feat_size=7,
+            in_channels=2048,
+            num_classes=2,
+            loss_cls=dict(
+                type='mmdet.CrossEntropyLoss',
+                use_sigmoid=False,
+                loss_weight=1.0))),
+    train_cfg=dict(
+        rpn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.3,
+                min_pos_iou=0.3,
+                match_low_quality=True,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.5,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=False),
+            allowed_border=0,
+            pos_weight=-1,
+            debug=False),
+        rpn_proposal=dict(
+            nms_pre=12000,
+            max_per_img=2000,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.5,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.5,
+                match_low_quality=False,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=256,
+                pos_fraction=0.25,
+                neg_pos_ub=-1,
+                add_gt_as_proposals=True),
+            pos_weight=-1,
+            debug=False),
+        child_head=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.7,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.7,
+                match_low_quality=False,
+                ignore_iof_thr=-1),
+            relation_sampler=dict(
+                type='RandomRelationSampler',
+                num=32,
+                pos_fraction=0.5,
+                cls_ratio_ub=1.0,
+                add_gt_as_proposals=True,
+                num_relation_cls=1,
+                neg_id=0),
+            pos_weight=-1,
+            online_data=True,
+            online_start_iteration=0),
+        leaf_head=dict(
+            assigner=dict(
+                type='MaxIoUAssigner',
+                pos_iou_thr=0.5,
+                neg_iou_thr=0.5,
+                min_pos_iou=0.5,
+                match_low_quality=False,
+                ignore_iof_thr=-1),
+            sampler=dict(
+                type='RandomSampler',
+                num=64,
+                pos_fraction=0.25,
+                neg_pos_ub=3.0,
+                add_gt_as_proposals=True),
+            pos_weight=-1,
+            debug=False)),
+    test_cfg=dict(
+        rpn=dict(
+            nms_pre=6000,
+            max_per_img=300,
+            nms=dict(type='nms', iou_threshold=0.7),
+            min_bbox_size=0),
+        rcnn=dict(
+            score_thr=0.05,
+            nms=dict(type='nms', iou_threshold=0.3),
+            max_per_img=100),
+        child_head=dict(
+            bbox_score_thr=0.5, verbose_relation=False, average_scores=False),
+        leaf_head=dict(score_thr=0.5, nms=None, max_per_img=100)))
+dataset_type = 'REGRADAffordDataset'
+data_root = 'data/regrad/'
+img_norm_cfg = dict(
+    mean=[123.675, 116.28, 103.53], std=[1.0, 1.0, 1.0], to_rgb=True)
+train_pipeline = [
+    dict(type='LoadImageFromFile', to_float32=True),
+    dict(
+        type='LoadAnnotationsCustom',
+        keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(type='PhotoMetricDistortion'),
+    dict(
+        type='RandomCrop', crop_type='random_keep', allow_negative_crop=False),
+    dict(type='Expand', mean=[123.675, 116.28, 103.53], ratio_range=(1, 2)),
+    dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[1.0, 1.0, 1.0],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(
+        type='DefaultFormatBundleCustom',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+              'gt_relleaves']),
+    dict(
+        type='Collect',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'])
+]
+test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadRelationProposals'),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1000, 600),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[1.0, 1.0, 1.0],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img', 'relation_proposals'])
+        ])
+]
+data = dict(
+    train=dict(
+        _delete_=True,
+        type='ConcatDataset',
+        datasets=[
+            dict(
+                type='REGRADAffordDataset',
+                data_root='data/regrad/',
+                meta_info_file='dataset_train_5k/meta_infos.json',
+                ann_file='dataset_train_5k/objects.json',
+                img_prefix='dataset_train_5k/RGBImages',
+                seg_prefix='dataset_train_5k/SegmentationImages',
+                depth_prefix='dataset_train_5k/DepthImages',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(type='PhotoMetricDistortion'),
+                    dict(
+                        type='RandomCrop',
+                        crop_type='random_keep',
+                        allow_negative_crop=False),
+                    dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                min_pos_relation=1,
+                class_agnostic=True),
+            dict(
+                type='MetaGraspNetAffordDataset',
+                data_root='data/metagraspnet/sim/',
+                meta_info_file='meta_infos_train.json',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(type='PhotoMetricDistortion'),
+                    dict(
+                        type='RandomCrop',
+                        crop_type='random_keep',
+                        allow_negative_crop=False),
+                    dict(
+                        type='Expand',
+                        mean=[123.675, 116.28, 103.53],
+                        ratio_range=(1, 2)),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                min_pos_relation=1,
+                class_agnostic=True),
+            dict(
+                type='VMRDAffordDataset',
+                ann_file='data/vmrd/ImageSets/Main/trainval.txt',
+                img_prefix='data/vmrd/',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(type='PhotoMetricDistortion'),
+                    dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                class_agnostic=True),
+            dict(
+                type='VRDAffordDataset',
+                data_root='data/vrd/',
+                ann_file='sg_dataset/sg_train_annotations.json',
+                img_prefix='sg_dataset/sg_train_images/',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                class_agnostic=True),
+            dict(
+                type='VGAffordDataset',
+                data_root='data/vg/downloads',
+                ann_file='relationships.json',
+                img_prefix='',
+                pipeline=[
+                    dict(type='LoadImageFromFile', to_float32=True),
+                    dict(
+                        type='LoadAnnotationsCustom',
+                        keys=[
+                            'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(type='RandomFlip', flip_ratio=0.5),
+                    dict(
+                        type='Resize', img_scale=(1000, 600), keep_ratio=True),
+                    dict(
+                        type='Normalize',
+                        mean=[123.675, 116.28, 103.53],
+                        std=[1.0, 1.0, 1.0],
+                        to_rgb=True),
+                    dict(type='Pad', size_divisor=32),
+                    dict(
+                        type='DefaultFormatBundleCustom',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ]),
+                    dict(
+                        type='Collect',
+                        keys=[
+                            'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+                            'gt_relleaves'
+                        ])
+                ],
+                class_agnostic=True)
+        ],
+        separate_eval=True,
+        class_agnostic=True),
+    val=dict(
+        _delete_=True,
+        type='ConcatDataset',
+        datasets=[
+            dict(
+                type='REGRADAffordDataset',
+                data_root='data/regrad/',
+                using_depth=False,
+                using_gt_proposals=True,
+                meta_info_file='dataset_seen_val_1k/meta_infos.json',
+                ann_file='dataset_seen_val_1k/objects.json',
+                img_prefix='dataset_seen_val_1k/RGBImages',
+                seg_prefix='dataset_seen_val_1k/SegmentationImages',
+                depth_prefix='dataset_seen_val_1k/DepthImages',
+                test_mode=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True,
+                max_sample_num=1000),
+            dict(
+                type='VMRDAffordDataset',
+                ann_file='data/vmrd/ImageSets/Main/test.txt',
+                img_prefix='data/vmrd/',
+                using_gt_proposals=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True)
+        ],
+        separate_eval=True,
+        class_agnostic=True),
+    test=dict(
+        _delete_=True,
+        type='ConcatDataset',
+        datasets=[
+            dict(
+                type='REGRADAffordDataset',
+                data_root='data/regrad/',
+                using_depth=False,
+                using_gt_proposals=True,
+                meta_info_file='dataset_seen_val_1k/meta_infos.json',
+                ann_file='dataset_seen_val_1k/objects.json',
+                img_prefix='dataset_seen_val_1k/RGBImages',
+                seg_prefix='dataset_seen_val_1k/SegmentationImages',
+                depth_prefix='dataset_seen_val_1k/DepthImages',
+                test_mode=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True,
+                max_sample_num=1000),
+            dict(
+                type='VMRDAffordDataset',
+                ann_file='data/vmrd/ImageSets/Main/test.txt',
+                img_prefix='data/vmrd/',
+                using_gt_proposals=True,
+                pipeline=[
+                    dict(type='LoadImageFromFile'),
+                    dict(type='LoadRelationProposals'),
+                    dict(
+                        type='MultiScaleFlipAug',
+                        img_scale=(1000, 600),
+                        flip=False,
+                        transforms=[
+                            dict(type='Resize', keep_ratio=True),
+                            dict(
+                                type='Normalize',
+                                mean=[123.675, 116.28, 103.53],
+                                std=[1.0, 1.0, 1.0],
+                                to_rgb=True),
+                            dict(type='Pad', size_divisor=32),
+                            dict(type='ImageToTensor', keys=['img']),
+                            dict(
+                                type='Collect',
+                                keys=['img', 'relation_proposals'])
+                        ])
+                ],
+                class_agnostic=True)
+        ],
+        separate_eval=True,
+        class_agnostic=True),
+    samples_per_gpu=4,
+    workers_per_gpu=2)
+evaluation = dict(interval=1, metric=['mAP', 'ImgAcc'])
+optimizer = dict(type='SGD', lr=0.005, momentum=0.9, weight_decay=0.0001)
+optimizer_config = dict(grad_clip=dict(max_norm=100, norm_type=2))
+lr_config = dict(
+    policy='step',
+    warmup='linear',
+    warmup_iters=4000,
+    warmup_ratio=0.001,
+    step=[12, 18])
+runner = dict(type='EpochBasedRunner', max_epochs=20)
+checkpoint_config = dict(interval=1, max_keep_ckpts=5)
+log_config = dict(interval=50, hooks=[dict(type='TextLoggerHook')])
+dist_params = dict(backend='nccl')
+log_level = 'INFO'
+load_from = None
+resume_from = None
+workflow = [('train', 1)]
+opencv_num_threads = 0
+mp_start_method = 'fork'
+auto_scale_lr = dict(enable=False, base_batch_size=16)
+mmdet = None
+mmdet_root = '/data/home/hanbo/projects/cloud_services/service/vmrn/vmrn_models/mmdetection/mmdet'
+test_with_object_detector = False
+test_crop_config = (174, 79, 462, 372)
+kinect_img_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadRelationProposals'),
+    dict(
+        type='FixedCrop',
+        crop_type='absolute',
+        top_left=(174, 79),
+        bottom_right=(462, 372)),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1000, 600),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[1.0, 1.0, 1.0],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img', 'relation_proposals'])
+        ])
+]
+seen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_seen_val_1k/meta_infos.json',
+    ann_file='dataset_seen_val_1k/objects.json',
+    img_prefix='dataset_seen_val_1k/RGBImages',
+    seg_prefix='dataset_seen_val_1k/SegmentationImages',
+    depth_prefix='dataset_seen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+unseen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_unseen_val_1k/meta_infos.json',
+    ann_file='dataset_unseen_val_1k/objects.json',
+    img_prefix='dataset_unseen_val_1k/RGBImages',
+    seg_prefix='dataset_unseen_val_1k/SegmentationImages',
+    depth_prefix='dataset_unseen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+real_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='real/meta_infos.json',
+    ann_file='real/objects.json',
+    img_prefix='real/RGBImages',
+    img_suffix='png',
+    depth_prefix='real/DepthImages',
+    test_mode=True,
+    test_gt_bbox_offset=(174, 79),
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='FixedCrop',
+            crop_type='absolute',
+            top_left=(174, 79),
+            bottom_right=(462, 372)),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True)
+regrad_datatype = 'REGRADAffordDataset'
+regrad_root = 'data/regrad/'
+vmrd_datatype = 'VMRDAffordDataset'
+vmrd_root = 'data/vmrd/'
+vmrd_train = dict(
+    type='VMRDAffordDataset',
+    ann_file='data/vmrd/ImageSets/Main/trainval.txt',
+    img_prefix='data/vmrd/',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='PhotoMetricDistortion'),
+        dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    class_agnostic=True)
+regrad_train = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    meta_info_file='dataset_train_5k/meta_infos.json',
+    ann_file='dataset_train_5k/objects.json',
+    img_prefix='dataset_train_5k/RGBImages',
+    seg_prefix='dataset_train_5k/SegmentationImages',
+    depth_prefix='dataset_train_5k/DepthImages',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='PhotoMetricDistortion'),
+        dict(
+            type='RandomCrop',
+            crop_type='random_keep',
+            allow_negative_crop=False),
+        dict(type='Expand', mean=[123.675, 116.28, 103.53]),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    min_pos_relation=1,
+    class_agnostic=True)
+metagraspnet_sim_train = dict(
+    type='MetaGraspNetAffordDataset',
+    data_root='data/metagraspnet/sim/',
+    meta_info_file='meta_infos_train.json',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='PhotoMetricDistortion'),
+        dict(
+            type='RandomCrop',
+            crop_type='random_keep',
+            allow_negative_crop=False),
+        dict(
+            type='Expand', mean=[123.675, 116.28, 103.53], ratio_range=(1, 2)),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    min_pos_relation=1,
+    class_agnostic=True)
+vgvrd_train_pipeline = [
+    dict(type='LoadImageFromFile', to_float32=True),
+    dict(
+        type='LoadAnnotationsCustom',
+        keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+    dict(type='RandomFlip', flip_ratio=0.5),
+    dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+    dict(
+        type='Normalize',
+        mean=[123.675, 116.28, 103.53],
+        std=[1.0, 1.0, 1.0],
+        to_rgb=True),
+    dict(type='Pad', size_divisor=32),
+    dict(
+        type='DefaultFormatBundleCustom',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds',
+              'gt_relleaves']),
+    dict(
+        type='Collect',
+        keys=['img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'])
+]
+vrd_train = dict(
+    type='VRDAffordDataset',
+    data_root='data/vrd/',
+    ann_file='sg_dataset/sg_train_annotations.json',
+    img_prefix='sg_dataset/sg_train_images/',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    class_agnostic=True)
+vg_train = dict(
+    type='VGAffordDataset',
+    data_root='data/vg/downloads',
+    ann_file='relationships.json',
+    img_prefix='',
+    pipeline=[
+        dict(type='LoadImageFromFile', to_float32=True),
+        dict(
+            type='LoadAnnotationsCustom',
+            keys=['gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves']),
+        dict(type='RandomFlip', flip_ratio=0.5),
+        dict(type='Resize', img_scale=(1000, 600), keep_ratio=True),
+        dict(
+            type='Normalize',
+            mean=[123.675, 116.28, 103.53],
+            std=[1.0, 1.0, 1.0],
+            to_rgb=True),
+        dict(type='Pad', size_divisor=32),
+        dict(
+            type='DefaultFormatBundleCustom',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ]),
+        dict(
+            type='Collect',
+            keys=[
+                'img', 'gt_bboxes', 'gt_labels', 'gt_relchilds', 'gt_relleaves'
+            ])
+    ],
+    class_agnostic=True)
+real_test_pipeline = [
+    dict(type='LoadImageFromFile'),
+    dict(type='LoadRelationProposals'),
+    dict(
+        type='FixedCrop',
+        crop_type='absolute',
+        top_left=(174, 79),
+        bottom_right=(462, 372)),
+    dict(
+        type='MultiScaleFlipAug',
+        img_scale=(1000, 600),
+        flip=False,
+        transforms=[
+            dict(type='Resize', keep_ratio=True),
+            dict(
+                type='Normalize',
+                mean=[123.675, 116.28, 103.53],
+                std=[1.0, 1.0, 1.0],
+                to_rgb=True),
+            dict(type='Pad', size_divisor=32),
+            dict(type='ImageToTensor', keys=['img']),
+            dict(type='Collect', keys=['img', 'relation_proposals'])
+        ])
+]
+regrad_seen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_seen_val_1k/meta_infos.json',
+    ann_file='dataset_seen_val_1k/objects.json',
+    img_prefix='dataset_seen_val_1k/RGBImages',
+    seg_prefix='dataset_seen_val_1k/SegmentationImages',
+    depth_prefix='dataset_seen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+regrad_unseen_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='dataset_unseen_val_1k/meta_infos.json',
+    ann_file='dataset_unseen_val_1k/objects.json',
+    img_prefix='dataset_unseen_val_1k/RGBImages',
+    seg_prefix='dataset_unseen_val_1k/SegmentationImages',
+    depth_prefix='dataset_unseen_val_1k/DepthImages',
+    test_mode=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True,
+    max_sample_num=1000)
+regrad_real_val_dataset = dict(
+    type='REGRADAffordDataset',
+    data_root='data/regrad/',
+    using_depth=False,
+    using_gt_proposals=True,
+    meta_info_file='real/meta_infos.json',
+    ann_file='real/objects.json',
+    img_prefix='real/RGBImages',
+    img_suffix='png',
+    depth_prefix='real/DepthImages',
+    test_mode=True,
+    test_gt_bbox_offset=(174, 79),
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='FixedCrop',
+            crop_type='absolute',
+            top_left=(174, 79),
+            bottom_right=(462, 372)),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True)
+vmrd_val_dataset = dict(
+    type='VMRDAffordDataset',
+    ann_file='data/vmrd/ImageSets/Main/test.txt',
+    img_prefix='data/vmrd/',
+    using_gt_proposals=True,
+    pipeline=[
+        dict(type='LoadImageFromFile'),
+        dict(type='LoadRelationProposals'),
+        dict(
+            type='MultiScaleFlipAug',
+            img_scale=(1000, 600),
+            flip=False,
+            transforms=[
+                dict(type='Resize', keep_ratio=True),
+                dict(
+                    type='Normalize',
+                    mean=[123.675, 116.28, 103.53],
+                    std=[1.0, 1.0, 1.0],
+                    to_rgb=True),
+                dict(type='Pad', size_divisor=32),
+                dict(type='ImageToTensor', keys=['img']),
+                dict(type='Collect', keys=['img', 'relation_proposals'])
+            ])
+    ],
+    class_agnostic=True)
+train_sampler = dict(
+    type='DistributedWeightedSampler',
+    weights=[0.1, 0.1, 0.05, 0.05, 0.7],
+    sample_per_epoch=150000,
+    shuffle=True)
+work_dir = './work_dirs/relation_afford_r101_caffe_c4_1x_regrad_vmrd_metagraspnet_vrd_vg_class_agnostic'
+gpu_ids = range(0, 8)