제일 먼저, Computer Vision 영역에서 예전부터 가장 흔히 접해왔던 생성형 AI를 활용한 사례이다.
Synthetic Image (합성 이미지) 생성
1) Style Transfer : 이미지의 그림체와 같은 스타일을 입혀 새로운 이미지를 생성해내는 기술. 보통 예술가들의 색채나 그림체를 가져와서 나의 이미지에 입혀주는 등의 사례가 바로 이 기술이다. style image와 normal image의 합성이다.
2) Image Inpainting : 이미지의 일부 영역에 새로운 이미지로 값을 생성해내는 기술. 이미지 속에서 배경의 어떤 객체를 지우고, 실제로 그 객체가 없었던 것처럼 자연스러운 배경을 생성해주는 사례가 이 기술이다. (missing regions in image 참고예시 - erase and replace, Google - Imagic : https://imagic-editing.github.io/)
3) Super Resolution : 이미지의 픽셀수가 작고, 값에 정보가 흐릿한 경우, 이를 더 뚜렷한 정보로 더 많은 픽셀수를 생성해내는 기술이다. 저화질을 고화질로 만들어주는 기술이다. (enhancing low-quality image)
4) Generative Image (Text to Image) : 텍스트로 단어 또는 문장의 조합을 넣어서, 그 의미와 일치하는 이미지를 생성해내는 기술. 아래는 모두 해당 기술에 대한 내용이다.
AI 모델 (architecture) 종류
1) GAN (Generative Adversarial Network)
- 가장 인기있는 모델
- a generator network + a discriminator network 로 구성된다.
- generator는 새로운 이미지들을 생산하고, discriminator는 그 이미지가 진짜인지 가짜인지 판별
2) VAE (Variational AutoEncoder)
- Encoder와 Decoder로 구성되어 있다. (확률적 성분)
- Encoder는 latent space로도 알려져있으며, 입력 이미지의 압축된 대표값을 학습한다.
- Decoder는 encoder에서 나온 이미지를 사용하여 새로운 이미지를 생산한다.
- GAN처럼 아주 초현실적인 이미지를 생성하기에는 어려움이 있다.
3) Autoregressive
- pixel by pixel로 새로운 이미지를 생성하는 모델
- 고퀄리티의 복잡한 이미지를 생산할 수 있지만, 한 픽셀씩 생성하는 특징으로 속도가 느린 단점이 있다.
- 또한, GAN만큼의 초현실이미지의 생산은 불가능하다.
(Open Source) 모델 라이브러리/프레임워크/Demo/Github
1) Text to Image
- OpenAI : CLIP: Connecting text and images 모델, DALL-E2 서비스도 제공 중
- StabilityAI : https://stability.ai/blog/stable-diffusion-public-release
- Google Imagen : https://imagen.research.google/
2) Text to Video
- NVIDIA : https://research.nvidia.com/labs/toronto-ai/VideoLDM/
3) Document Image Generator
- Naver : SynthDoG, Synthetic Document Generator
참고자료)
Image Synthesis Using Artificial Intelligence – ITU|AI
How to Build a Generative AI Model for Image Synthesis?
How to Know When Image Synthesis Systems Are Producing Genuinely 'Original' Material - Unite.AI
'AI > Computer Vision' 카테고리의 다른 글
Object Detection Evaluation - IoU란? (1) | 2023.12.08 |
---|---|
이미지 영상의 어파인 변환 (Affine Transformation)이란 무엇인가? (0) | 2023.11.17 |
Spectral Clustering 알고리즘 & Laplacian Matrix. 라플라시안 행렬 (그래프이론) (0) | 2023.11.01 |
Digital Image Processing 이란 무엇일까? (디지털 이미지 처리) (0) | 2023.04.15 |
DRI (Detection, Recognition, Identification의 차이) (0) | 2022.11.12 |