논문 리뷰

[논문리뷰] Instance-Aware Repeat Factor Sampling for Long-Tailed Object Detection(IR

컴퓨터비전 LCK 2024. 5. 26. 19:37

https://arxiv.org/abs/2305.08069

 

Instance-Aware Repeat Factor Sampling for Long-Tailed Object Detection

We propose an embarrassingly simple method -- instance-aware repeat factor sampling (IRFS) to address the problem of imbalanced data in long-tailed object detection. Imbalanced datasets in real-world object detection often suffer from a large disparity in

arxiv.org

 

1.Introduction

안녕하세요 저번 포스팅에서 WeightedRandomSampler를 이용하여 각 샘플들이 뽑힐 확률이 조정받을 수 있다는 것을 알아보았습니다.
 
하지만 다뤘던 내용은 Image Classifier에서는 적용될 수 있겠지만 Object detection에는 적절한 예가 될 수 없습니다. 왜냐하면 Object detection 에서는 이미지 한장한장이 샘플이고, 그 샘플 안에는 다양한 클래스의 바운딩 박스들이 있기 때문입니다.
 
예를 들어드리겠습니다.
 
아래는 coco128 데이터셋에서 가져온 이미지입니다.

000000000064.jpg

000000000064.txt
2 0.292792 0.729031 0.367417 0.246281
7 0.239438 0.599242 0.259542 0.0929219
11 0.279896 0.412773 0.077125 0.117453
74 0.394146 0.184914 0.321458 0.237984
 
이미지 샘플와 해당 이미지 안 객체들의 레이블과 바운딩 박스가 표시된 txt파일입니다.
 
2: car
7: truck
11: stop sign
74: clock
 
로 마킹되어있고, 모두 위 사진 속에서 확인할 수 있으실 겁니다.
 
Object detection은 이와 같이 이미지 샘플들이 여러개의 객체들을 포함하고 있기에, 롱테일 데이터셋을 사용하여 detection 모델을 만들 때 어떤 샘플에게 큰 가중치를 주어야 할까에 대해서 단순한 image classifier과는 다른 방법으로 접근해야 한다는 것을 알 수 있습니다.
 

3. Methods

이 논문에서는 object detection에서 re-sampling방식을 적용할 때 어떤 식으로 가중치를 적용시킬지에 대해서 설명합니다.
 
3.1 Repeat Factor Sampling (RFS)
 
이 논문에서는 IRFS로 가기전 RFS 방식에 대해 설명하고 있습니다. RFS는 적은 수의 클래스를 가진 이미지들을 골라 더 큰 가중치를 부여합니다.

 
1. 클래스 c의 객체를 하나라도 포함한 이미지들의 비율을 f_c로 두고 t / f_c의 값을 구하여 r_c값을 결정합니다. 따라서 클래스를 하나라도 포함하는 이미지의 개수가 적을수록 r_c값은 커집니다.

그렇게 하여 생긴 이미지 내에서의 r_c들 중 해당 이미지 내에서 가장 큰 값(이미지 내 가장 적은 class)을 반환하여 이미지의 repeat factor로 사용합니다.
 
 
3.2 Instance-Aware Repeat Factor Sampling (IRFS)
 
그러나 RFS방식에는 아쉬운 점이 하나 있습니다. 이미지 내 가장 적은 수의 객체들로 repeat factor들이 결정되기 때문에 클래스 관점에서 살펴본 Long-tail 분포를 대표하기엔 무리가 있다는 점입니다.

위의 표를 보시면 Instance Count 간의 격차를 Image Count가 잘 대표하고 있지 못하다 라는것을 알 수 있습니다.
 
그래서 이 논문에서는 IRFS 를 제안합니다.
 

repeat factor 부분이 바뀌었다는 것을 알 수 있으실텐데요. 이미지 비율과 클래스의 비율 두가지를 고려하고, 이 둘의 기하평균을 repeat factor로 적용하기 때문에 이전보다 Long-tail 분포의 대표성이 더 뛰어난 샘플링 전략입니다.
 

4. Experiments

해당 논문에서는 long-tail 데이터셋인 LVIS v1.0을 통해 실험을 진행하였습니다.

 
모든 모델에서의 실험결과에서  가장 높은 정확도를 보임을 알 수 있습니다. 또한 RFS보다 IRFS 전략이 더 높은 정확도를 보임도 알 수 있습니다.