컨셉 아티스트가 되고 있는 AI. AI에 목소리를 뺏긴 스칼렛 요한슨의 분노(AI is becoming a concept artist. Scarlett Johansson's anger at having her voice stolen by AI)

HONG

2024년 5월 22일

Big tech companies such as Google, OpenAI, and Microsoft are racing to develop generative AI. In May 2024, Google and OpenAI unveiled new AI assistants and AI chatbots with new capabilities, demonstrating faster and more accurate results in a variety of tasks, including search, translation, and information resolution.

These technological advances in AI are also impacting Hollywood. Video generation research and development is evolving and expanding alongside AI. The text-to-video (T2V) model, which leverages AI to create text-to-video (T2V), is rapidly proliferating, with companies like Runway and Pika Labs.

OpenAI also made waves in February with the release of Sora. Google also introduced Veo, a text-based video generation model, at its developer forum, and more models are being developed by developers including Irreverent Labs.

In some cases, AI is replacing content creators, such as conceptual artists. However, there are also conflicts between artists and AI tech companies. One of the new replica voices released by OpenAI's AI chatbot GPT is similar to the voice (Samantha) of Scarlett Johansson, the main character in the AI romance movie Her, and Johansson is suing OpenAI.

Johansson claims that OpenAI violated her right of publicity by creating an AI voice assistant that resembles her image or voice without her permission.

As generative AI becomes more sophisticated, the role of the "human concept artist," the person who conceptualizes the initial direction and imagery for a movie or TV show, is also diminishing.

구글, 오픈AI, 마이크로소프트 등 빅테크들의 생성AI 개발 경쟁이 뜨겁다. 구글과 오픈AI는 2024년 5월 새로운 기능을 탑재한 AI비서와 AI챗봇을 내놓고 검색, 번역, 정보 해결 등 다양한 작업에서 보다 빠르고 정확한 결과를 보여줬다.

AI의 이런 기술적 진보는 할리우드에도 영향을 주고 있다. 비디오 세대 연구 및 개발은 AI와 함께 발전하고 확장되고 있다. 런웨이(Runway), 피카랩스(Pika Labs) 등 AI를 활용, 텍스트를 통해 비디오(T2V)를 만드는 ‘텍스트투비디오(T2V)모델도 빠르게 확산되고 있다.

오픈AI도 2월 소라(Sora)의 출시로 큰 반향을 일으켰다. 구글도 개발자 포럼에서 텍스트 기반 비디오 생성 모델 베오(Veo)를 선보였다. 또 일러벤트 랩스(Irreverent Labs)를 비롯한 개발자들이 더 많은 모델을 개발하고 있다.

콘텐츠 제작 작업에서는 콘텐츠 컨셉트 아티스트 등 AI로 대체되는 상황도 발생하고 있다. 하지만 아티스트와 AI 테크 기업 간 갈등도 발생하고 있다. 오픈AI AI챗봇 GPT가 내놓은 새로운 복제 목소리 중 하나가 AI 로맨스 영화 ‘그녀(Her)’의 주인공 스칼렛 요한슨(Scarlett Johansson)의 목소리(사만다)와 유사하다는 주장에 그녀가 오픈AI를 고소하겠다고 밝혔다.

요한슨은 오픈AI가 그녀의 허락을 받지 않고 자신의 이미지나 목소리를 연상케 하는 AI음성 비서를 만들어 초상 사용권, 즉 퍼블리시티권(Right of Publicity)를 위반했다고 말했다. 아울러 생성AI가 고도화되면서 영화나 드라마의 초기 방향성이나 이미지 컨셉트를 잡는 ‘인간 컨셉 아티스트’의 역할도 줄어들고 있다.

[구글 AI 비디오 생성 툴 ‘베보(Veo)’] 공개

구글은 최근 개발자 포럼(IO)에서 자사 제미나이(Gemini) 모델을 사용해 검색 및 사진 기능 등을 개선한 새로운 AI 관련 제품을 대거 선보였다. 검색 분야 강자 자리를 지키면서 오픈AI(OpenAI), 마이크로소프트 등 AI기술 선두 주자와 경쟁할 수 있는 기술을 있음을 강조했다.

이 중 할리우드가 주목할만한 솔루션도 있었다. AI로 비디오를 생성하는 ‘베오 엔진(Veo Engine)을 공개하고 60초 분량 데모를 오픈한 것이다.

“밝은 네온사인, 날아다니는 자동차, 안개, 야간, 자동차 렌즈 불빛, 입체 불빛 등이 디스토피아적 분위기의 차량을 촬영한 장면(A fast-tracking shot through a bustling dystopian sprawl with bright neon signs, flying cars and mist, night, lens flare, volumetric lighting)”이라는 명령(Prompt)를 통해 생성된 영상이다. 이를 통해 만들어진 공개 영상은 보다 실사적이고 자연스러워졌다.

변수가 통제된 상황에서 생성된 만큼, 콘텐츠 제작 현장 사용은 아직 부족할 수 있지만 인간 창작자를 충분히 긴장하게 하는 AI기술 수준을 선보인 것이다.

소개된 베오의 결과물(텍스트 활용한 AI 영상 제작)

또 구글은 프롬프트(명령어)를 더 잘 이해하고 텍스트를 보다 자연스럽게 렌더링할 수 있는 텍스트 이미지 엔진 이매진(Imagen 3)의 업데이트 버전도 공개했다.

구글 딥마인드 대표 데미스 하사비스(Demis Hassabis)는 개발자 포럼(IO)에서 AI와의 협의 미래가 매우 자연스러울 수 있음을 강조했다. 이와 관련 구글은 AI기반 비서 개발 프로젝트 ‘아스트라’를 소개했다. 아스트라의 능력은 “안경을 잃어버린 사용자가 휴대폰 동영상에서 힌트를 얻어 안경을 다시 찾는 모습”을 통해 시연됐다.

구글의 AI 제미나이(Gemini)는 사용자가 자신의 사진 컬렉션에 대해 질문하고 답변을 얻을 수 있는 기능도 탑재했다. 구글은 ‘써클 검색 ’도 소개했다. 사진이나 텍스트에서 궁금한 내용이 있을 경우 화면을 캡쳐해 AI가 찾아보는 기능이다. 이와 함께 구글은 검색 결과를 요약해주는 AI오버뷰(AI overviews) 런칭 한다고 밝혔다. 동영상 검색, 요약 등은 드라마, 영화 등 콘텐츠 제작 편집과정에서 긴요하게 쓰일 수 있다.

결국 구글의 목표는 결국 AI챗봇을 사람의 통제에 따라 스스로 움직일 수 있는 AI 에이전트를 만드는 것이다. 창작 현장에서는 AI 조감독으로 치환할 수 있다.

순다르 피차이 구글 CEO는 이사를 준비하는 사람이 AI에이전트를 통해 새로운 동네의 정보를 얻고 웹에서 주소를 변경하는 등의 작업을 할 수 있는 사례를 공유하기도 했다. 피차이는 “개인 정보도 보호하고 모두에게 도움이 되는 방식의 AI에이전트를 고민하고 있다”고 밝혔다.

[더 사람과 가까어진 챗GPT-4O]

텍스트 기반 비디오 생성 AI 소라를 공개해 할리우드를 흔들어놨던 오픈AI 역시 ‘대화형 AI 챗봇’의 신형 모델을 공개했다. 편집, 이미지 검색, 더빙, 생성 등에서 AI 기술의 중요성이 높아지는 가운데 대화형 AI 어시스턴트의 기술 수준은 매우 중요하다.

오픈AI(OpenAI)은 보다 빠르고 저렴해진 GPT-4O모델 신형과 AI 대화형 챗봇을 발표했다. 현장 영상 만을 참조할 때 사람과 오픈AI의 음성 어시스트는 실시간 상호 작용이 가능해졌다.

기능 시연에서 오픈AI는 AI로부터 한 직원이 심호흡을 하는 방법을 실시간 교육 받는 모습을 보여줬고 드라마 대본 리딩, 심지어 노래까지 부르는 AI를 연출했다. 챗GPT가 대수 방정식을 보고 문제 풀이 과정을 제시하는 등 더 강력해진 챗GPT ‘GPT-4O(Omini)’를 선보였다.

오픈AI는 챗GPT의 멀티모달(multimodal) 기능을 강조했다.

AI가 텍스트뿐만 아니라 이미지, 음성, 동영상 등의 포맷으로 소통하고 결과를 내놓는 기능이다. 오픈AI에 따르면 GPT-40는 휴대폰 카메라를 사용해 필기된 메모를 잃고 사람의 감정도 감지를 할 수 있다. GPT-4O의 텍스트와 이미지 생성 기능은 유료 챗GPT 사용자에게 제공되기 시작했다. 기업 버전도 조만간 내놓는다. 이와 동시에 GPT-4의 후속 버전도 오는 가을 시장에 배포된다.

William Fedus on X: "GPT-4o is our new state-of-the-art frontier model. We’ve been testing a version on the LMSys arena as im-also-a-good-gpt2-chatbot 🙂. Here’s how it’s been doing. https://t.co/xEE2bYQbRk" / X

오픈AI CTO 미라 무라티(Mira Murati)는 현장 에서 “GPT-4o의 특별한 점은 무료 사용자를 포함한 모든 사람에게 GPT-4 수준의 지능을 제공한다는 것”이라며 “GPT-40는 속도 뿐만 아니라 사용 편리성에서 거대한 진보를 했다”고 말했다. 마이크로소프트 역시 시애틀에서 빌드 컨퍼런스를 개최하고, 애플은 6월 10일 WWDC 행사에서 제너레이티브 AI 전략을 공개할 예정이다.

[AI에 복제 당한 충격의 스칼렛 요한슨, Just like Her]

기술이 빠르게 발전하는 사이 ‘창작자와 AI’간 갈등도 발생하고 있다. 오픈 AI가 공개한 대화형 AI챗봇의 기능을 시연하는 장면은 인공 지능과 사랑에 빠지는 내용을 담은 2013년 영화 ‘그녀(Her)’를 연상케 했다는 평가가 많았다. 기대와 함께 동시에 ‘AI가 인간을 대체할 수 있다는 우려’도 나왔다. 이 영화에서 목소리 AI는 인간이 지시하는 모든 업무를 수행한다.

외로움을 달래주는 동시에 인간이 작성한 원고를 수정해주기도 한다. 놀랍게도 현재의 생성AI 비서와 닮았다. 특히, ‘그녀’에서 AI 목소리(사만다)로 출연했던 유명 배우 스칼렛 요한슨(Scarlett Johansson)은 오픈AI의 음성 AI챗봇에 민감한 반응을 보였다. 자신의 목소리를 AI가 복제했다는 것이다.

법적 대응도 예고했다. 요한슨은 오픈AI가 자신의 ‘퍼블리시티권(right of publicity)’을 위반했다고 보고 있다. 특정인이 자신의 성명 · 초상 · 목소리 · 이미지 · 캐릭터 등을 상업적으로 이용하거나 제3자에게 상업적인 이용을 허락할 수 있는 배타적 권리를 말한다.

초상 사용권이라고도 하며 연예인 · 스포츠 스타 등 유명인이 자신의 얼굴이나 이름 등을 동의 없이 상업적으로 이용할 수 없도록 하는 게 대표적 퍼블리시티권이다. 퍼블리시티권에서 핵심적인 부분은 상업적 이용 여부다. 그러나 한국은 물론이고 미국 연방법에도 퍼블리시티권을 보하하는 강제 조항은 없다.

이에 대해 오픈AI는 스카이로 알려진 목소리가 요한슨이 ‘그녀’에서 연기한 AI 비서처럼 들린다는 사용자들의 지적에 따라 챗GPT의 음성 제공을 '일시 중단'한다고 발표했다.

스칼렛 요한슨의 대리인은 공식 성명을 통해 “지난 여름 샘 알트만 오픈AI CEO로부터 목소리를 사용할 수 있도록 허락해달라는 요청을 받았지만 거절했다”는 사실을 공개했다.

요한슨은 당시 “알트먼이 자신의 목소리가 사람들에게 위로가 될 것"이며 "테크 기업과 크리에이티브 사이의 간극을 좁힐 수 있다"고 주장했다고 말했다. 최근 알트먼의 챗GPT-4O 데모 발표 이틀 전 다시 컨택해왔고 ‘목소리 사용을 재고해달라는 요청’을 했지만, 답을 주기도 전에 시스템이 오픈됐다고 말했다.

하지만, 요한슨은 공개된 챗GPT의 AI의 목소리가 자신의 목소리와 얼마나 닮았는지를 듣고 "충격과 분노, 그리고 믿기지 않았다(shocked, angered and in disbelief)”고 말했다.

이어 그녀는 자신의 변호인이 오픈AI에 음성 개발에 사용된 "정확한 프로세스"를 자세히 설명해 달라고 요구한 후 오픈AI가 스카이 사용을 일시 중시했다고 덧붙였다.알트만은 주변에 “스카이의 목소리는 정확히 스칼렛 요한슨이 아니다”라며 “그녀를 닮으려는 의도가 없었다”고 말했다.

[AI는 이제 컨셉 아티스트]

이렇듯 AI와 창작 집단 간 갈등은 점점 넓어지고 있다. 현재 창작 작업에서 생성AI(Gen AI)의 사용은 제한적이지만 발전하는

생성AI는 예술의 컨셉트를 만드는 ‘컨셉 예술 창작(concept art creation)’ 분야에서 역할이 커지고 있다. 영화와 드라마를 분위기를 만들고 기획하는 ‘컨셉트 아티스트(Concept art)의 역할을 인간이 아닌 AI가 하기 시작한 것이다. 컨셉 아트는 캐릭터, 환경, 세트, 건물, 차량, 의상, 소품 디자인을 제작하는 작업으로 판타지, SF, 액션 영화 프로젝트 초기 가장 중요한 단계다.

컨셉 아티스트는 콘텐츠의 주요 뼈대 즉, 키프레임(keyframes)을 잡는다. 화면에서 포착 해야 하는 중요한 순간 이나 특정 장면을 시각화(Visualization)하는 디지털 페인팅을 만드는 것이다. 컨셉 아트를 담당하는 현재의 대부분 컨셉 아티스트는 기존 이미지 등을 통해 만든 3D 모델링을 통해 개념과 장면을 완성한다.

그러나 이런 컨셉 아트에 이제 AI가 개입한다. 이제 저장된 기존 사진에 의존하거나 과거 영화, TV를 참조하는 대신 AI가 생성한 이미지가 컨셉 아티스트의 디자인 참고 초안에 활용되기 시작했다.

AI 이미지는 아티스트가 최종 에셋을 결정하기 전 제작 관계자들 간의 커뮤니케이션을 속도를 높이는 데 사용되고 있다. 통상 다자이너나 영상 편집자와의 협의 과정은 지난하다. 일반적으로 컨셉 아티스트는 다양한 제작진들의 의견을 받아 스케치에 대한 여러 차례 수정을 거친다.

생성AI는 최소한 수주가 걸리는 이런 과정을 하루로 압축할 수 있다. 동시에 스튜디오는 컨셉 설명을 자신들의 하는 대신 AI이미지를 VFX 스튜디오에 제공하기 시작했다. AI 이미지는 피치 데크(pitch decks)에 등장하기 시작했다.컨셉 아티스트의 역할과 창작 과정을 보다 실질적으로 대체할 수 있음을 시사한다

Newsletter

디지털 시대, 새로운 정보를 받아보세요!