2024/05 4

Image Segmentation이란? Image Matting과의 차이

이미지 분할 모델은 이미지 분류(Image Classification) 모델과 달리 이미지에 대해 하나의 정답레이블을 가지는 것이 아니라 이미지의 구체적인 정보를 알고자하는 모델이다. 정확히 객체가 어떤 모양인지 또는 특정 픽셀이 어느 객체에 포함되어있는지를 알고자 하기때문에 Image Segmentation 모델의 데이터셋을 보면 이미지 픽셀마다 label이 할당된 것을 볼 수 있다.  따라서, Image Segmentation은 이미지에서 중요한 객체의 정확한 형태를 파악하고, 그 위치를 경계로 객체를 분할하기 위한 기술이다. 이미지 분할 기술은 위성영상, 자율주행을 위한 도로영상, 의학 촬영영상 등에서 많이 사용되고 있으며, 더 나아가 최근에는 탐지된 객체를 삭제하고 빈 공간을 생성형 이미지로 채우..

AI/Computer Vision 2024.05.21

[파이썬] Python에서 XML 파일 다루는법 - XPath에 대해서 알아보자.

XML 파일을 그냥 읽으면 parsing되지않고, 모두 이어진 텍스트로 읽혀 가독성이 매우 좋지않다. 이를 가독성 좋게 읽기 위해서는 우선 python에서 지원하는 xml parsing 도구를 사용할 수 있다.보편적으로 아래와 같은 코드로 xml 파일을 읽어들이게 된다.import xml.etree.ElementTree as ETtree = ET.parse(xml_path)root = tree.getroot() 아래의 코드로 root에 저장된 내용을 각 계층에 맞게 출력해주면 가독성 좋은 텍스트로 출력할 수 있다.def print_xml_structure(elem, level=0): indent = '\t' * level print(f"{indent}") if elem.text: ..

Programming/python 2024.05.16

[멀티모달] OpenAI의 GPT-4o (omni)는 GPT-4에서 얼마나 향상되었는가?

GPT-4oGPT-4o (“o” for “omni”) Document : Hello GPT-4o | OpenAI OpenAI에서는 2024.05.13에 텍스트, 오디오, 이미지(영상)을 동시에 입력하였을 때, 출력도 텍스트, 오디오, 이미지를 생성해내는 AGI(Artificial General Intelligent)인 gpt-4o 모델을 발표했다. 모델의 성능은 GPT-4 Turbo 모델과 같은 성능에 non-english에 대한 정확도도 향상되었다. 이번 gpt-4o 모델은 특히, 이미지를 인식하는 비전영역과 음성을 인식하는 오디오영역에서 더 향상된 성능을 보인다. 그와 동시에 더 빠르고, 50% 낮아진 가격으로 API를 사용할 수 있게 되었다. 실제 ChatGPT에서 gpt-4o 모델로 프롬프트를 입..

AI/Fundamental 2024.05.14

프롬프트 엔지니어링이란? Prompt Engineering, in-context learning (Zero, One, Few-shot)

prompt란?prompt : 컴퓨터가 사용자의 입력을 받을 준비가 되어있고, promptable : 입력을 받을 수 있는 것 또는 상태 prompt engineering이란?프롬프트 엔지니어링은 대규모 언어 모델(LLM)으로부터 원하는 답변에 대해 높은 품질의 결과를 추출하기 위해서 프롬프트의 입력 텍스트를 적절히 조합하는 것을 말합니다.  llm의 답변에 대한 지침을 부여하는 것으로 대표적인 llm을 제공하는 OpenAI의 ChatGPT의 예시를 보겠습니다. 아래와 같이 프롬프트 엔지니어링을 위한 6가지 전략을 제시하였습니다.Write clear instructions : 명확한 지시서를 작성해라. (ex. 전문가 수준의 긴 답변) Provide reference text (ex. fake infor..

AI/Fundamental 2024.05.07