AI/Paper Review

[논문 리뷰] What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis (2019)

방황하는 데이터불도저 2023. 12. 20. 18:01

개요

STR(Scene Text Recognition) 분야에서 기술의 한계를 깨고 있다고 주장되는 모델들은 각자 다른 학습/평가 데이터셋을 사용해서 비일관적이다. 이에 대해 전반적으로 공평한 비교가 어렵기 때문에 해당 논문에서는 1) 비일관적인 평가 결과의 차이를 확인하고, 2) 통합적인 STR 프레임워크를 제안한다. 마지막으로는 3) 모듈마다의 성능(정확도, 속도, 메모리)을 분석하여 명확히 비교한다.

 

원문 보기 : https://arxiv.org/abs/1904.01906

 

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

Many new proposals for scene text recognition (STR) models have been introduced in recent years. While each claim to have pushed the boundary of the technology, a holistic and fair comparison has been largely missing in the field due to the inconsistent ch

arxiv.org


1. Introduction

CRNN, RARE, R2AM, START-Net, GRCNN, Rosetta 모델 그리고 논문에서 제안한 모델을 비교한 테이블이다.
 
기존의 평가와 비교해서 training부터 evaluation까지 동일한 데이터셋을 적용하여, 평가한 결과를 보여준다.

2. Dataset Matters in STR

해당 논문에서는 통일된 학습데이터로 MJ+ST를 사용하였다.

  • MJ : MJSynth로 다양한 fonts, styles(그림자, 테두리 등), background color, projective distortion 등의 처리를 통해 100% 합성한 Text Recognition을 위해 생성된 데이터이다. 
  • ST : SynthText의 준말로 해당 데이터셋도 합성 데이터이다. Text Detection model 학습을 위해 생성된 데이터로 80만개 이미지를 포함하고 있다. (download link)

테이블의 결과를 보면, 어떤 학습데이터로 만들어진 모델인지, 어떤 테스트 데이터를 사용하냐에 따라서 정확도에 차이가 큰 것을 볼 수 있다. 이에 따라 해당 논문에서는 균일한 데이터셋을 사용하여, 동등하게 평가한 수치를 테이블에 나타내고, 해당 논문에서 제안한 모델이 가장 높은 정확도를 보이고 있다는 것 또한, 보여주고 있다.
 
평가 데이터셋으로 사용된 것들은 아래와 같다. 일반적인 텍스트 이미지들과 왜곡, 노이즈, 커브 등 다양한 예외적인 텍스트 이미지들을 가진 데이터셋 총 7가지로 테스트하였다.
 
regular datasets

  • IIIT5K : The dataset contains 5000 cropped word images from Scene Texts and born-digital images.
  • SVT : harvested from Google Street View - high variability, low resolution
  • IC03 : ICDAR 2003 Scene Images
  • IC13 : ICDAR 2013 Born-Digital Images, Focused Scene Text Images

irregular datasets

  • IC15 : Incidental Scene Text
  • SP : SVTP (Street View Text Perspective)
  • CUTE80 : Curved Text images

3. STR Framework Analysis

  • 전처리부 : Spatial Transformation Network (STN) ~ Thin Plate Spline(TPS) transformation 옵션으로 둠. (paper)
  • 특징추출부 : visual feature map V={column vectors} 집합을 출력한다.
     - 각각의 column들은 input image의 수평방향 줄을 따라 대응되는 receptive field들이다.
     - 위의 특징으로 각각의 receptive field에서 character를 추측하게 된다.
     - model로는 VGG, RCNN, ResNet 을 고려함
  • 시퀀스 모델링 : H=Seg.(V)로 부족한 문맥정보를 BiLSTM 모델로 보완. 옵션으로 선택가능. (연산 비용이 큼)
  • 예측부 : CTC(Connectionist Temporal Classification) 또는 Attn(Attention-based sqequence prediction)
     - 고정길이가 아닌 가변적인 시퀀스 문제(여러 characters가 담긴 부분)를 다루기 위해서 두 모델을 벤치마킹함. 
     - character-level로 결과값을 추론해낸다.

4. Experiment and Analysis

24가지 경우들을 모두 실험한다.

 = 2 (전처리부 0 or 1) * 3 (VGG or RCNN or ResNet) * 2 (시퀀스 모델링 0 or 1) * 2 (CTC or Attn)

 

  • hyperparameters : AdaDelta Optimizer(decay=0.95), batch size=192, iterations=300K, Gradient clipping=5
  • evaluation dataset : random parts of IIIT, SVT, IC03, IC13, IC15, SP, CT
  • evaluation method : WER per image (only alphabets and digits)

데이터셋을 각각 사용한 것 보다, 혼합하여 20%씩 사용한것이 더 정확도가 높게 나왔다.
데이터셋의 양보다는 데이터셋의 다양성이 중요하다는 것을 알 수 있다.

TPS-ResNet-BiLSTM-Attn 조합이 가장 높은 정확도를 보였으나 speed와 memory 측면에서 높은 비용이 든다는 trade-offs frontier(red line)를 볼 수 있다. memory와 speed에 대해서는 음의 상관관계를 가진다.

 

위의 모델 조합으로 STR분야의 common challenge들에서 좋은 결과를 보였다.

  • TPS transformation : curved and perspective texts 인식
  • ResNet : heavy background clutter, unseen fonts 인식
  • BiLSTM : unrepeatedly cropped characters 무시
  • Attention : missing and occluded characters 인식

하지만 여전히 실패케이스들이 존재하고, 향후 연구 주제이다.

  • Calligraphic fonts
  • Vertical texts
  • Special characters
  • Heavy occlusion
  • Low resolution
  • Label noise

조금 오래된 논문이지만, STR분야의 여러 historical 내용들과 고려해야할 점들에 대한 인사이트를 얻기 좋은 논문이라고 생각한다.

추천!!! 👍️👍️