[Text Detection] EAST 모델 및 데이터셋 생성을 위한 코드 작성 #2

penguin1109 · 2022-11-18T05:40:20Z

EAST 모델은 bounding box generation을 위한 모델의 output이 score map과 geometry map이다.
여기서 score map은 현재 픽셀 위치가 text box에 해당할 점수를 의미하는 것이고, (text 영역이면 1, text 영역이 아닌 배경이면 0) geometry map은 현재 픽셀 위치와 bounding box의 4모서리로부터의 수직 거리를 각각의 채널의 픽셀 위치에 적혀 있는 ground truth map이다.
-AIHUB 데이터가 (x1, y1, x2, y2)로 bounding box를 기록해 놓았기에 이를 (x1, y1, x2, y2, x3, y3, x4, y4)의 8개의 point로 변형 하였으며 data augmentation을 위해서 patch image를 일정 각도로 random rotate를 할 수 있도록 하였다. 또한, GPU의 한계로 이미지 전체를 넣어줄 수 없어서 이미지 crop을 할 때에 bounding box를 지나지 않도록 crop 할 수 있게 코드를 작성하였다.
EAST 모델의 feature generator 부분은 사전학습된 vgg19 모델을 사용하도록 하였다.

penguin1109 moved this to Done in OCR Model Nov 18, 2022

penguin1109 added this to OCR Model Nov 18, 2022

Provide feedback