AI/Computer Vision

[트렌드] Computer Vision에서의 생성형 AI. Generative model에 대해서 알아보자.

방황하는 데이터불도저 2023. 4. 14. 18:59

제일 먼저, Computer Vision 영역에서 예전부터 가장 흔히 접해왔던 생성형 AI를 활용한 사례이다.

 

 

Synthetic Image (합성 이미지) 생성

 

 1) Style Transfer : 이미지의 그림체와 같은 스타일을 입혀 새로운 이미지를 생성해내는 기술. 보통 예술가들의 색채나 그림체를 가져와서 나의 이미지에 입혀주는 등의 사례가 바로 이 기술이다. style image와 normal image의 합성이다.

 

 2) Image Inpainting : 이미지의 일부 영역에 새로운 이미지로 값을 생성해내는 기술. 이미지 속에서 배경의 어떤 객체를 지우고, 실제로 그 객체가 없었던 것처럼 자연스러운 배경을 생성해주는 사례가 이 기술이다. (missing regions in image 참고예시 -  erase and replace, Google - Imagic : https://imagic-editing.github.io/)

 

 3) Super Resolution : 이미지의 픽셀수가 작고, 값에 정보가 흐릿한 경우, 이를 더 뚜렷한 정보로 더 많은 픽셀수를 생성해내는 기술이다. 저화질을 고화질로 만들어주는 기술이다. (enhancing low-quality image)

 

 4) Generative Image (Text to Image) : 텍스트로 단어 또는 문장의 조합을 넣어서, 그 의미와 일치하는 이미지를 생성해내는 기술. 아래는 모두 해당 기술에 대한 내용이다.

 

 

AI 모델 (architecture) 종류

 

1) GAN (Generative Adversarial Network)
    - 가장 인기있는 모델
    - a generator network + a discriminator network 로 구성된다.
    - generator는 새로운 이미지들을 생산하고, discriminator는 그 이미지가 진짜인지 가짜인지 판별

 

2) VAE (Variational AutoEncoder)

    - Encoder와 Decoder로 구성되어 있다. (확률적 성분)
    - Encoder는 latent space로도 알려져있으며, 입력 이미지의 압축된 대표값을 학습한다.
    - Decoder는 encoder에서 나온 이미지를 사용하여 새로운 이미지를 생산한다.
    - GAN처럼 아주 초현실적인 이미지를 생성하기에는 어려움이 있다.

3) Autoregressive

    - pixel by pixel로 새로운 이미지를 생성하는 모델
    - 고퀄리티의 복잡한 이미지를 생산할 수 있지만, 한 픽셀씩 생성하는 특징으로 속도가 느린 단점이 있다.
    - 또한, GAN만큼의 초현실이미지의 생산은 불가능하다.

 

 

(Open Source) 모델 라이브러리/프레임워크/Demo/Github

 

 1) Text to Image 

      - OpenAI : CLIP: Connecting text and images 모델, DALL-E2 서비스도 제공 중

      - StabilityAI : https://stability.ai/blog/stable-diffusion-public-release 

      - Google Imagen : https://imagen.research.google/ 

 

2) Text to Video  

    - NVIDIA : https://research.nvidia.com/labs/toronto-ai/VideoLDM/

 

3) Document Image Generator

    - Naver : SynthDoG, Synthetic Document Generator

 

 


참고자료)

Image Synthesis Using Artificial Intelligence – ITU|AI
How to Build a Generative AI Model for Image Synthesis?
How to Know When Image Synthesis Systems Are Producing Genuinely 'Original' Material - Unite.AI