Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[TEXT DETECTION] AIHUB 데이터셋으로 Fine-Tuning을 한 뒤에 숫자, 혹은 작은 영역 검출 정확도 올리기 #4

Open
6 of 10 tasks
penguin1109 opened this issue Nov 18, 2022 · 2 comments
Assignees
Labels
enhancement New feature or request

Comments

@penguin1109
Copy link
Contributor

penguin1109 commented Nov 18, 2022

  • 현재로서 EAST, TextBPN, DBNet 중에 선택을 하려고 하는데, 단순히 AIHUB 이미지 데이터셋으로 scratch 부터 학습 시키기에는 이미지 데이터의 수가 부족하다는 한계가 있었다. (원래 100만, 1000만장의 이미지를 가지고 있을 때에만 scratch 학습이 가능한 것인데, data augmentation과정으로 다양한 위치에서 crop을 하면 학습이 가능할 줄 알았으나 시간적인 여유가 없었다)

  • 그래서 이제 위의 3개의 모델을 비교하고 필요 하다면 숫자나 작은 문자 영역의 검출의 정확도를 올리기 위해서 직접 이미지 데이터셋을 생성해서 학습 시킬 예정이다.

  • 작은 숫자, 작은 크기의 문자영역이 포함된 이미지 데이터셋 생성

  • AIHub 데이터셋 학습에 용이하게 특수 문자 영역, text 영역 구분해서 bounding box 데이터 만들어 재학습

  • pre-processing으로 affine transformation 시도 (영수증을 직접 찍으면 휘어짐이나 굴곡등의 왜곡된 부분이 분명 있음)

  • Image Denoising이나 Image Restoration 모델을 고려해볼 필요가 있음

  • EAST의 사전 학습된 모델 fine-tuning

  • TextBPN의 사전 학습된 모델 fine-tuning

  • DBNet의 사전 학습된 모델 fine-tuning

  • CRAFT의 사전 학습된 모델 fine-tuning

  • CTPN의 사전 학습된 모델 fine-tuning

  • 위의 모델들 성능 비교 후에 선택된 모델의 정확도 향상

@penguin1109 penguin1109 moved this to In Progress in OCR Model Nov 18, 2022
@penguin1109 penguin1109 self-assigned this Nov 18, 2022
@penguin1109 penguin1109 added the enhancement New feature or request label Nov 18, 2022
@penguin1109
Copy link
Contributor Author

<EAST 결과>

Image

<CTPN 결과>

  • 아마도 EAST는 굴곡진 간판 이미지같은 arbitrary feature에 더 적합하기 때문에 horizontal text에 최적화 되어 있는 CTPN이 영수증이나 거래 내역같은 문서 이미지는 더 잘 검출하는 듯 하다.

Image

Image

---> 다만 여기서 이미지가 품질이 안 좋은 경우에는 아래와 같이 정확도가 낮아서 전처리를 더 해준 다음에 input으로 넣어줄 필요가 있을듯

  • 학습 시킬 때에 데이터에 임의로 아핀 변환같이 transformation을 해줘서 augmentation을 강하게 줘서 학습을 더 CTPN으로 시켜야 할 것 같음

Image

@penguin1109
Copy link
Contributor Author

  • Image Denoising을 위해서, 혹은 image restoration을 위해서 추가적으로 앞 단의 pre-processing으로 이미지 품질 개선을 하는게 나을지 아니면 고전적인 변환 알고리즘을 사용하면 될지 판단 부탁 드립니다

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
Status: In Progress
Development

No branches or pull requests

1 participant