전체메뉴

검색
팝업창 닫기
이메일보내기

언어의 맥락 이해한 챗GPT…'사람을 탄 자전거'도 그린다

◆오픈AI '챗GPT 이미지' 출시

틀 벗어난 창의적 요구 소화

과학 인포그래픽도 쉽게 생성


오픈AI가 맥락과 대상에 대한 이해도를 한 층 높인 새 이미지 생성 인공지능(AI) 모델을 내놨다. ‘그림’만 학습한 기존 이미지 모델에 GPT-4o 언어 모델이 결합하며 목적에 부합하는 이미지를 쉽게 생성할 수 있게 될 전망이다.

챗GPT 이미지가 생성한 뉴턴의 프리즘 실험 인포그래픽. 실험에 대해 이해하고 명확한 설명과 폰트로 인포그래픽을 만들어낸다. 사진제공=오픈AI




25일(현지 시간) 오픈AI는 새 이미지 AI ‘챗GPT 이미지(챗GPT 4o 이미지 생성)’를 출시했다. 이는 기존 DALL·E(달이)를 대체해 챗GPT의 기본 이미지 생성 모델이 된다. 오픈AI 관계자는 “GPT-4o의 언어 지식과 이미지 지능이 결합된 모델”이라며 “기존 모델이 참신했다면 이 모델은 유용하다”고 강조했다.

챗GPT 이미지는 그림만 학습한 DALL·E 등 기존 이미지 생성 모델과 근본부터 다르다. 그릴 대상에 대한 이해를 지녀 학습하지 않은 '창의적인' 요구도 소화한다. 일례로 DALL·E는 숫자와 문자를 삐뚤빼뚤 적는다. 숫자와 문자도 ‘그림’으로 해석해 마치 어린아이가 따라그리듯 생성해내는 것이다.

또 ‘자전거를 탄 사람’은 잘 그려내지만 ‘사람을 탄 자전거’는 그리기 힘들어 한다. 사전 학습된 이미지에 특이한 그림이 드문 탓이다. 기존 AI 이미지 생성 모델이 사람 손을 잘 그려내지 못하는 이유도 여기에 있다. AI는 신체 구조 전반에 대한 이해가 없이 팔 끝에는 손가락과 같은 형상이 달려 있어야 한다는 점만 안다.



챗GPT 이미지는 글자를 모사하지 않고 제대로 적어낼 수 있다. 사진제공=오픈AI


챗GPT 이미지는 그림 생성에 언어 모델을 결합해 문제를 해결했다. 언어 모델이 요구사항을 이해한 후 그림을 만들어내 보다 정확한 결과물을 만들어 낸다. ‘삼각형 바퀴의 자전거’도 쉽게 그려내고, ‘향유 고래를 그려달라’는 요구에 종을 파악한 후 특징을 살린 이미지를 출력한다. 문자와 숫자에 대한 이해도 한층 개선됐다. 과학 실험을 설명한 인포그래픽도 원리를 이해해 쉽게 생성해낼 수 있다. 오픈AI 관계자는 “높은 강도의 스트레스 테스트에도 사람 손가락을 제대로 그려냈다”고 했다.

새 모델은 물 위를 달리는 말 같은 기존에 학습하지 않은 이미지도 쉽게 생성해낸다. 사진제공=오픈AI


챗GPT 이미지는 무료 사용자들에게도 제공된다. 영상 AI ‘소라’에도 새 모델의 언어 이해가 적용된다. 서비스 경쟁력 개선의 일환이다. 현재 구글 제미나이는 ‘이마젠’ 이미지 생성 모델을 제공 중이다. 중국 딥시크도 ‘야누스’라는 이름의 이미지 생성 모델을 출시한 바 있다.
< 저작권자 ⓒ 서울경제, 무단 전재 및 재배포 금지 >
주소 : 서울특별시 종로구 율곡로 6 트윈트리타워 B동 14~16층 대표전화 : 02) 724-8600
상호 : 서울경제신문사업자번호 : 208-81-10310대표자 : 손동영등록번호 : 서울 가 00224등록일자 : 1988.05.13
인터넷신문 등록번호 : 서울 아04065 등록일자 : 2016.04.26발행일자 : 2016.04.01발행 ·편집인 : 손동영청소년보호책임자 : 신한수
서울경제의 모든 콘텐트는 저작권법의 보호를 받는 바, 무단 전재·복사·배포 등은 법적 제재를 받을 수 있습니다.
Copyright ⓒ Sedaily, All right reserved

서울경제를 팔로우하세요!

서울경제신문

텔레그램 뉴스채널

서경 마켓시그널

헬로홈즈

미미상인