AI 32

[논문 리뷰] What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis (2019)

개요 STR(Scene Text Recognition) 분야에서 기술의 한계를 깨고 있다고 주장되는 모델들은 각자 다른 학습/평가 데이터셋을 사용해서 비일관적이다. 이에 대해 전반적으로 공평한 비교가 어렵기 때문에 해당 논문에서는 1) 비일관적인 평가 결과의 차이를 확인하고, 2) 통합적인 STR 프레임워크를 제안한다. 마지막으로는 3) 모듈마다의 성능(정확도, 속도, 메모리)을 분석하여 명확히 비교한다. 원문 보기 : https://arxiv.org/abs/1904.01906 What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis Many new proposals for scene text recogn..

AI/Paper Review 2023.12.20

딥러닝에서 Multi Granularity Feature (다중 세분화 기능) 이란?

Multi-granularity feature는 딥러닝에서 다양한 해상도 또는 크기의 특징을 함께 사용하여 모델의 성능을 향상시키는 기술입니다. 이는 모델이 서로 다른 *추상화 수준에서 정보를 학습할 수 있도록 도와줍니다. * 추상화 : 딥러닝 모델이 데이터로부터 패턴을 학습할 때, 다양한 추상화 수준으로 패턴을 학습하게 되는데, 추상화라는 것은 데이터의 상세한 부분부터 전반적인 개요까지의 정보를 단순화하는 과정이다. 이미지 데이터는 다양한 크기와 해상도의 특징을 가질 수 있습니다. Multi-granularity feature는 이러한 특징들을 다양한 관점으로 모델에 통합하여 학습하고, 이를 통해 더욱 풍부한 정보를 활용할 수 있습니다. 예를 들어, 모델은 낮은 해상도 이미지에 대해서 전체 이미지의 개..

AI/Fundamental 2023.12.15

Object Detection Evaluation - IoU란?

IoU = Intersection over Union - Object Detection 모델에 대한 answer(annotation) 영역과 output(prediction) 영역 사이의 겹치는 정도를 파악하여, 이를 통해 정확도를 평가하기 위해 IoU를 측정한다. annotation의 bounding box 위치와 모델이 검출한 bounding box의 위치가 동일한가? 쉽게 생각해서 겹치는 부분 / 전체 부분이다. IoU에 대한 threshold를 설정하여 50%이상이면 정답, 이하이면 오답으로 분류하여 정확도를 판단할 수 있다. 흔하게는 50%~80% 사이로 임계값을 설정한다. image_path = "img_1.jpg" gt_path = "gt_img_1.txt" pred_path = "img_1..

AI/Computer Vision 2023.12.08

이미지 영상의 어파인 변환 (Affine Transformation)이란 무엇인가?

어파인 변환은 이미지/영상의 기하학적인 변환들 중에 하나이다. 밝기 조절이나 필터링과 같은 이미지의 픽셀값을 수정하는 변환과 달리 기하학적 변환은 픽셀값은 그대로 유지하되 픽셀값의 위치를 변환하는 것. 즉, 이미지 픽셀값의 배치를 변경하는 것이다. 아래는 기하학적 변환에 대한 chatGPT의 설명이다. 이미지의 기하학적 변환은 이미지의 형태를 변경하는 데 사용되는 여러 가지 기법을 포함합니다. 다양한 기하학적 변환의 종류는 다음과 같습니다: 이동(Translation): 이미지를 좌우 또는 상하로 이동시키는 변환으로, 모든 픽셀을 일정한 거리만큼 이동합니다. 회전(Rotation): 이미지를 중심을 기준으로 회전시키는 변환입니다. 주어진 각도에 따라 이미지의 회전을 수행합니다. 크기 조절(Scaling)..

AI/Computer Vision 2023.11.17

분류모델 성능평가 지표 (2) : PR curve, mAP (mean Average Precision)

해당 글을 읽기 전에 먼저 알아야할 내용 Confusion Matrix로 분류모델 성능평가 지표(precision, recall, f1-score, accuracy) 구하는 방법 먼저 Confusion Matrix(혼동행렬)란, 이진분류(Binary Classification) 나 다중분류(Multiclass Classification)에서 어떤 모델의 분류가 잘 되었는지 평가하기 위해 모델의 결과를 시각화한 표 또는 행렬이다. Binary kyull-it.tistory.com PR curve; Precision-Recall curve : 객체인식 결과에 대한 confidences에 대해 threshold를 지정하여 TP, FP를 구별해준다. 이를 통해 precision과 recall을 구해줄 수 있는데..

AI/Fundamental 2023.11.02

회귀분석 평가지표 정리해보기 (Metrics ; MAE, MAPE, MPE / MSE, RMSE, MSLE / R2 score)

MAE; Mean Absolute Error; 평균 절대 오차; - 오차의 절대값. (선 단위) MAPE; Mean Absolute Percentage Error; 평균 절대 비율(백분율) 오차; - MAE지표를 백분율로 계산한 것이다. MPE; Mean Percentage Error; 평균 비율(백분율) 오차; - 절댓값을 빼고 계산하여 underperformance, overperformance인지 판단할 수 있다. MSE; Mean Squared Error; 평균 제곱 오차; - 오차의 제곱 (면적 단위). - 값이 큰 오차일수록 훨씬 더 가중되어 오차가 커지고, 1미만의 오차는 더 오차가 작아진다. RMSE; Root Mean Squared Error; 평균 제곱 오차; - 오차의 제곱의 제곱근...

AI/Fundamental 2023.11.02

Spectral Clustering 알고리즘 & Laplacian Matrix. 라플라시안 행렬 (그래프이론)

Image Segmentation 기법 중에서 Spectral Clustering 이라는 알고리즘이 있다. Spectral Clustering은 기본적으로 그래프 이론을 바탕으로 Graph Partitioning Algorithm의 일종으로 사용될 수 있다. 이름을 보고 직관적으로 이해해보면, 이 알고리즘은 공간적으로 무언가를 클러스터링하겠다는 것으로 이해할 수 있다. 아래에서 더 자세히 어떤 과정으로 클러스터링을 할 수 있는것인지 간단하게 정리해보았다. 우선, 이 알고리즘은 크게 두가지 행렬을 통해 산출될 수 있다. 1. Similarity matrix(Affinity matrix) 2. Laplacian matrix 기본적으로 해당 행렬은 자료가 graph 형태로 node과 edge 정보들을 담고있다..

AI/Computer Vision 2023.11.01

다양한 관점에 따른 변수의 종류 모음. (수학, 데이터)

1. 인과관계(기능)에 따른 변수 독립 변수 (Independent Variable) : 다른 변수에 영향을 주는 변수 원인 변수 / 요인 변수 / 실험 요인 (Factor) : 종속 변수에 원인을 야기하는 독립 변수 예측 변수 (Predictor Variable) / 설명 변수 (Explanatory Variable) / 회귀 변수 (Regressor) / 자극 변수 (Stimulus) / 외생 변수 (Exogenous Variable) / 통제 변수 (Control Variable) / 공변 변수 (Covariate) : 예측에 이용되는 변수로 변화를 예측해보려고, 변화시켜보는 변수. (독립 변수) 종속 변수 (Dependent Variable) : 다른 변수로부터 영향을 받는 변수 반응 변수 (Re..

AI/Fundamental 2023.10.16

정규화란? Normalization, Regularization 정규화 종류에 대해서 알아보자.

정규화라는 단어가 가지는 의미는 정상화라는 말과 같다. [어떠한 오류나 비정상적인, 패턴이 없는] 상태에서 [정상적인 상태, 일정한 규칙을 가진]상태로 상태를 변화시키는 것이 정규화이다. 정규화가 실제로 수행되는 경우에는 굉장히 다양한 종류들이 있다. 흔하게 볼 수 있는 정규화로는 데이터베이스에서의 정규화, 통계학적 정규화, 머신러닝/딥러닝 학습에서의 정규화 3가지가 있다. 영어로 보자면 Normalization, Regularization가 될 수 있는데, 모두 한국어로하면 정규화라고 한다. 그래서 어떤 누가와서 정규화가 뭐에요?라고 묻는다면, 어떤 정규화를...말하는거지? 하고 헷갈릴 수 있다. 어느 면접에서 실제로 어떤 정규화를 말하는건지 질문자의 의도를 파악하지 못하고, 쌩뚱맞은 정규화에 대해서 ..

AI/Fundamental 2023.09.13

LSTM (Long Short-Term Memory) 신경망 모델 공부하기

이 글을 읽기 전에 해당 내용은 08-02 장단기 메모리(Long Short-Term Memory, LSTM) - 딥 러닝을 이용한 자연어 처리 입문 을 보고 공부한 내용입니다. 잘못된 부분이 있다면 댓글 부탁드립니다. 아래의 내용을 보기 전에 RNN을 먼저 공부하고 오시는 것을 추천드립니다! https://kyull-it.tistory.com/139 RNN(Recurrent Neural Network) 순환신경망 공부하기 08-01 순환 신경망(Recurrent Neural Network, RNN) - 딥 러닝을 이용한 자연어 처리 입문 글을 참고하여 공부한 내용을 정리하였습니다. RNN은 Input값과 Output값을 Sequence 단위로 끊어서 처리하는 Sequence Model kyull-it...

AI/Fundamental 2023.08.28