본문 바로가기
인공지능(AI)

텍스트만으로 이미지를 만들고 편집하는 인공지능 DALL-E 2

by 이제이 2022. 4. 17.
반응형

지난 4월 6일 OpenAI에서 텍스트를 넣으면 이미지를 만들어주는 인공지능 DALL-E 2를 공개했습니다. 

 

 

[출처: https://twitter.com/OpenAI]

 

 

DALL-E 2라는 이름을 가진 이 인공지능은 텍스트를 입력받으면 아래와 같이 멋진 그림 또는 사진을 만들어 준다고 합니다. 사람이 직접 그렸다고, 또는 포토샵 처리했다고 해도 믿을만하죠? 

 

[출처: https://arxiv.org/pdf/2204.06125.pdf]

 

 

DALL-E 2가 발표된 후부터 현재까지 인터넷, 특히 트위터는 DALL-E 2를 사용해본 사람들의 후기로 가득했습니다. 사람들의 기발한 아이디어와 이를 멋지게 표현한 DALL-E 2의 합작물은 감탄을 자아낼 정도로 멋지더군요. 

 

 

4월 17일 DALL-E 2의 트위터 검색 결과 [출처: https://twitter.com/search?q=%23dalle2&src=typeahead_click&f=top]

 

 

이번 포스팅에서는 비현실적인 또는 초현실적인 문장을 넣어도 훌륭한 작품을 완성해 주는 DALL-E 2에 대해 알아보려고 합니다.

 

목차
- DALL-E 2의 특징
- DALL-E 2의 사용법
- DALL-E 2의 한계
- DALL-E 2의 저작권

 

DALL-E 2의 특징

1. 높은 해상도와 사실적인 이미지

DALL-E 2는 작년에 나온 DALL-E 1보다 해상도가 4배가 높고, 더 사실적이고 정확한 이미지를 생성한다고 합니다. DALL-E 1과 2를 비교한 아래의 이미지만 비교해 봐도 DALL-E 2가 1보다 훨씬 더 선명한 이미지를 만들어 낸다는 걸 알 수 있죠. 

 

[출처: https://openai.com/dall-e-2/]

 

2. 컨셉, 속성, 스타일 적용 

DALL-E 2는 주제, 컨셉, 속성, 스타일에 따라 다른 결과물을 만들어 낼 수 있습니다. DALL-E 2 홈페이지에 가면, 아래와 같이 원하는 주제, 컨셉, 스타일을 변경할 때마다 다른 이미지 또는 사진이 나오는 것을 볼 수 있습니다.

 

저는 "디지털 아트로 다른 차원으로 가는 포털인 스프"를 선택해 봤습니다. 초현실적이면서 아름다운 그림 아닌가요? 여러분들도 DALL-E 2 홈페이지에 가서 다양한 결과물을 확인해 보세요. 

 

[출처: https://openai.com/dall-e-2/]

3. 편집 기능(In-painting)

앞으로 포토샵 기술이 점차 필요하지 않을 수 있다는 가능성을 DALL-E 2가 보여주었습니다. '그림 속에 강아지'와 같은 문장만으로 DALL-E 2는 사진 편집을 간단히 할 수 있습니다. 아래 이미지와 같이 강아지를 그림에도, 쇼파 뒤나 위에도 추가할 수 있는데, 편집이라는 걸 못 알아볼 정도로 자연스럽지 않나요?

 

게다가 DALL-E 2는 그림자, 텍스쳐 등을 고려해 원하는 요소를 추가하거나 제거할 수 있다고 합니다. 저같이💩손에게는 정말 필요한 기능이죠. DALL-E 2가 상용화되는 날이 빨리 왔으면 좋겠습니다. :) 

 

[출처: https://openai.com/dall-e-2/]

4. 이미지의 다양한 변형

DALL-E 2는 이미지를 넣으면 다른 스타일로 자동으로 변형시켜주는 기능도 가지고 있습니다. 하지만 이 기능은 GAN 계열의 다른 인공지능에서도 볼 수 있었습니다. 하지만 기존의 모델과 비교해 보다 사실적이고 다양한 스타일로 변형시킬 수 있다는 점에서 놀랍습니다. 

[출처: https://openai.com/dall-e-2/]

5. 인공지능 윤리 준수

특별히 DALL-E 2는 인공지능 윤리를 준수하려고 노력했습니다. DALL-E 2가 사실적인 이미지를 생성해내기 때문에 잘못 사용될 가능성을 고려한 것 같아요. 폭력, 혐오, 포르노 이미지를 DALL-E 2로 생성하지 못하도록 학습 단계에서 최대한 그런 이미지를 배제했고, 공인, 연예인 등 잘 알려져 있는 사람들의 얼굴을 생성하지 못하도록 하였습니다. 뿐만 아니라 사용자가 폭력, 혐오, 포르노, 정치색을 띠는 이미지를 만들지 못하도록 정책을 마련하였고, 필터를 사용하거나 사람이 직접 모니터링까지 한다고 합니다. 


 

DALL-E 2의 사용법

이와 같은 여러 특징을 보니 DALL-E 2가 많은 사람들의 관심을 왜 끌고 있는지 알 수 있었습니다. 그럼 DALL-E 2는 어떻게 사용할 수 있을까요? 아직까지 DALL-E 2는 누구나 사용할 수 있도록 공개되지는 않았습니다. 안정성 검증을 위해 전문가와 소규모 사용자 그룹에게 먼저 공개하고, 추후 대중에게도 공개할 예정이라고 해요. 

 

하지만 DALL-E 2 홈페이지에서 API를 신청할 수는 있습니다. DALL-E 2 waitlist에 이름을 올리면 API를 사용할 수 있는 권한을 준다고 해서 저도 한번 신청해 봤어요. 자세한 내용을 알고 싶다면 DALL-E2 베타 버전 신청 및 사용 방법를 읽어보세요. 

 


DALL-E 2의 한계

완벽해 보이는 DALL-E 2에도 몇 가지 한계점은 존재합니다.

 

첫째 입력 데이터의 라벨링이 있을 경우 잘못된 결과가 나올 수 있습니다. 예를 들어 비행기 이미지에 자동차라고 라벨링이 되어 있다면 DALL-E 2가 생성하는 이미지가 자동차가 아닌 비행기가 될 수도 있다고 합니다. 

 

두번째 한계점은 DALL-E 2가 알지 못하는 것을 생성해야할 경우에 나타납니다. DALL-E 2가 학습하지 못한 이미지를 생성해야 할 때 DALL-E 2는 자신이 이해한대로 이미지를 생성한다고 해요. 사람인 우리도 종종 그럴 때가 있는데요, 어떻게 보면 DALL-E 2가 인간이 사고하는 방식을 많이 닮아있다는 생각이 듭니다. 

 

[출처: https://arxiv.org/pdf/2204.06125.pdf]


 

DALL-E 2의 저작권

마지막으로 DALL-E 2가 만든 이미지나 사진의 저작권은 누구에게 있는 걸까요? 당연하게도 DALL-E 2를 만든 Open AI에게 저작권이 있습니다. 그래서 DALL-E 2가 만든 이미지나 사진은 비영리 목적으로만 사용 가능해요. 

 

그렇다면 DALL-E 2가 만든 이미지나 사진이라는 걸 어떻게 알 수 있을까요? 위의 이미지들을 자세히 보시면 공통적으로 어떤 표시가 있는 것을 발견할 수 있습니다. 발견하셨나요? 

 

[출처: https://openai.com/dall-e-2/]

DALL-E 1와 달리 DALL-E 2가 생성한 모든 이미지에서는 오른쪽 하단에 스펙트럼 표시가 있는 것을 발견할 수 있습니다. DALL-E 2가 도용되는 것을 방지하기 위해, 그리고 잘못된 사용을 방지하고자 Open AI가 넣은 표시 같아요. 이 표시를 통해 DALL-E 2가 생성한 이미지 또는 사진임을 누구나 알 수 있습니다.  

 


 

Our hope is that DALL·E 2 will empower people to express themselves creatively. DALL·E 2 also helps us understand how advanced AI systems see and understand our world, which is critical to our mission of creating AI that benefits humanity.

Open AI는 DALL-E 2를 통해 사람들이 자신을 창의적으로 표현할 수 있기를 바란다고 하였습니다. 트위터 검색을 통해 볼 수 있었듯, 사람들의 기발한 창의력과 DALL-E 2의 창조력이 결합된 환상적인 작품이 탄생하는 것을 보면 Open AI의 바람이 이루어졌다고 볼 수 있을까요? 

 

DALL-E 2를 통해 사람들이 AI가 더이상 우리와 멀리 동떨어져 있는 기술, 또는 위협이 되는 기술이 아니라 우리의 상상력과 창의력을 효과적으로 발전시킬 수 있는 도구라는 것을 깨달았으면 좋겠습니다. 

 


지금까지 DALL-E 2에 대해 알아봤습니다. 다음 포스팅에서는 DALL-E 2가 어떻게 이렇게 멋진 이미지를 생성할 수 있는지 간단하게 알아보고자 합니다. 그럼 다음 시간에 만나요! 

 

 

참고자료

DALL·E 2

https://arxiv.org/pdf/2204.06125.pdf

https://www.youtube.com/watch?v=ROEyaaAuR5g 

반응형

댓글