The use of generative AI is becoming a common process in movie and TV production. In particular, the use of conversational AI, such as celebrity voice replication using AI, AI music, and AI editing, is rapidly spreading.
AI voice is a new opportunity for movies and TV shows that want to expand overseas. Even studios that don't have the budget to localize their content can use AI dubbing to knock on foreign doors.
[AI synthesized voice has many uses]
There are many uses for AI-synthesized voices. In addition to localization, it can be used for other purposes. Examples include voice narration for sports, animation, and documentaries, scripted audio applications such as audiobooks, and voice-enabled conversational chatbots powered by large-scale language models (LLMs). Of course, consent is required to use AI voices.
영화나 TV제작 현장에서 생성AI의 사용은 일반적인 과정이 되고 있다. 특히, AI를 이용한 유명인 음성 복제, AI음악, AI편집 등 대화형 AI(conversational AI) 사용은 급속히 확산되고 있다. AI음성은 해외 진출을 원하는 영화나 TV프로그램에는 새로운 기회다. 콘텐츠 현지화 예산이 부족한 스튜디오들도 AI 더빙을 이용해 해외 시장을 노크할 수 있기 때문이다.
[쓰임새가 많은 AI합성 음성]
AI 합성 음성의 쓰임은 많다. 지역화 외에도 다른 용도로 사용될 수 있다. 스포츠, 애니메이션, 다큐멘터리 등의 음성 내레이션이나 오디오북과 같은 스크립트 오디오 애플리케이션, 대규모 언어 모델(LLM)로 구동되는 음성 지원 대화형 챗봇 등이 대표적이다. 물론 AI음성을 쓰기 위해선 동의가 필수다. AI합성 음성은 개인화된 콘텐츠 경험을 제공하면서도 품질이 뛰어나고 제작속도가 빠르다는 장점이 있다.유명인이나 연예인들은 자신의 초상권(heir likeness) 수익화하면서도 팬들과 교감도 가능하다.
AI 음성은 올림픽에도 진출했다. NBC유니버설은 스트리밍 서비스 피콕(Peacock)에서 올림픽 기간 동안 10분 길이 경기 하이라이트 영상을 유명 캐스터인 마이클의 AI 음성을 탑재해 제공한다고 밝혔다.
최근 AI음성은 보다 조직적이다. 기업들은 유명인이나 크리에터와 파트너십을 맺어 그들의 목소리나 페르소나로 애플리케이션이나 AI 챗봇을 맞춤화하고 있다. 다양한 AI음성 스타트업들이 나오고 있다. 버라이어티는 AI음성 스타트업 일부를 선정해 이들이 비즈니스 모델과 최근 제품을 소개했다. (기사 내용 중 일부는 버라이어티를 번역한 내용이다.)
일레븐랩스(ElevenLabs)
일레븐랩스는 최근 제임스 딘(James Dean), 버트 레이놀즈(Burt Reynolds), 로렌스 올리비에(Laurence Olivier), 주디 갈랜드(Judy Garland) 등 고인이 된 유명 배우 4명의 AI 목소리가 책을 읽어주는 새로운 리더 앱(Iconic Voices)을 출시했다. 이 앱은 링크, PDF 및 ePub 등 다양한 형식으로 제공된다. 정확한 라이선스 조건은 공개되지 않았지만, 유명인 권리 관리 대행사 CMG Worldwide와 협상을 진행한 것으로 알려졌다.
캐릭터.AI(Character.ai)
고객 맞춤형 페르소나를 가진 AI챗봇을 제공하는 AI 스타트업인 캐릭터.ai는 캐릭터 콜(Character Calls)을 선보였다. 사용자들이 실시간으로 AI봇들과 인터랙티브한 오디오(비디오) 대화를 나눌 수 있게 하는 기능이다.
일레븐랩스의 아이코닉 목소리와의 차이점은, 챗봇 캐릭터들의 대화 텍스트 콘텐츠가'스크립트(각본)가 없는' 대신 LLM에 의해 자동 생성된 후 음성으로 변환된다는 점이다.
지난 3월 이 회사는 텍스트 채팅 중 챗봇이 사용자에게 음성으로 답하는 캐릭터 음성을 출시한 바 있다. 음성 라이브러리에서 자신의 챗봇 캐릭터에 사용할 음성을 선택하거나 녹음된 음성 샘플을 제공해 만드는 방식이다.
메타(Meta)
소셜 미디어 서비스 인스타그램과 페이스북을 운영하고 있는 메타는 실제 사람을 기반으로 만든 AI와 채팅할 수 있는 AI 스튜디오를 테스트하고 있다. 50명의 크리에이터를 선정해 인스타그램에서 자신을 스스로 AI챗봇으로 만드는 테스트를 시작했다. 메타는 8월에 더 많은 미국 사용자가 앱에서 직접 메시지를 보낼 수 있도록 공개할 예정이라고 밝혔다. 관련 내용은 지난 6월 말 메타 CEO 마크 저커버그가 사내 인터뷰 영상을 통해 오픈됐다. 당시 저커버그는 새로운 AI 채팅 기능을 사용하는 사진 몇 장도 공개했다.
이에 앞서 메타는 2023년 9월 28일 유명인과 크리에이터 28명의 캐릭터를 학습해 만든 ‘28개의 AI캐릭터 모델(챗봇 라마 3 기반)’을 공개했다.
사용자들은 인스타그램, 메신저, 왓츠앱(WhatsApp)에서 이들 28개 AI캐릭터에게 메시지를 보내고 대화할 수 있다. 테크크런치는 메타가 AI챗봇에 AI보이스도 탑재할 계획이라고 보도한 바 있다.
- 구글(Google)은 캐릭터.ai와 유사한 AI챗봇 기능을 개발 중이다. 사용자들이 자신들이 원하는 스타일대로 자신만의 AI챗봇을 만들고 대화하는 것이다. 디인포메이션은 올해 중 출시할 수 있을 것이라고 보도했다. 챗봇은 실제 연예인이나 유명인을 모델로 할 모 것으로 보인다. 구글은 공식적으로 인플루언서들과 협업을 논의하고 있다고 밝혔다. AI 멀티모달 모델인 제미니에 적용될 수 있을 것으로 전문가들은 보고 있다.
[AI음성 챗봇의 시장성은?]
해리스x가 진행한 설문 조사에 따르면 미국 소비자의 약 3분의 2가 유명인이나 개인적으로 아는 사람(친척)을 모델로 한 텍스트 기반 챗봇, 음성 애플리케이션, 초현실적 비디오 아바타 등 AI음성과의 디지털 경험에 어느 정도 관심이 있다고 답했다.
하지만, 구체적인 방식에 대한 질문에는 소비자 관심이 크게 떨어졌다. 대부분 미국 소비자는 합성 존재(synthetic beings)를 통한 다양한 유형의 디지털 경험에는 관심이 없다고 밝혔다
전체 응답자의 죽은 60%가까이가 유명인과 대화하는 것에 큰 관심이 없었다.
이러한 불일치는 이론적으로는 관심이 있지만, 실제 자신의 AI아바타와 대화하는데는 호기심이 없다는 이야기다. 이번 조사만을 봤을 때 대부분 소비자들은 심정적으로는 동의하지만, 실제 행동하지 않을 가능성이 크다.
게다가 AI음성의 사용은 상당한 위험성을 내포하고 있다. 배우들의 초상권은 어떤 동의나 보상 없이 복제되고 있다. 동의를 받지 않고 개인이 만든 유명 인사의 딥페이크가 급증하고 있으며, 모건 프리먼, 조 바이든(Joe Biden) 등 유명인들도 피해를 입었다. 오픈AI 역시, 동의 없이 스칼렛 요한슨의 목소리를 사용해 AI음성을 만들었다는 논란이 일었다. 물론 자신들은 부정했지만 ‘실제 음성을 들었던 사람’들은 AI의 스카이 목소리가 스칼렛 요한슨의 목소리를 학습했을 가능성을 지적했다. 급기야 요한슨, 코난 오브라이언, 아리아나 그란데, 조 로건 등 유명인들은 허가나 대가 없이 자신의 목소리 복제품을 홍보에 사용했다며 AI 음성 스타트업 LOVO를 상대로 집단 소송을 제기하기도 했다.
[AI음성에 대한 법안 작업 및 라벨링 중요]
AI시대, 저작권을 인정 받지 못하는 배우나 개인의 이미지나 목소리를 보하기 위해선 법안 작업은 진행되고 있다. 그러나 잘못된 사용을 처벌하는 법들은 현저히 부족하고 불균일하다는 지적이 많다. 이에 버라이어티는 “법안이 만들어지지 전, 미디어 회사나 유명인이 스스로 권리 보호에 나서야 한다”고 주장하기도 했다. 특히, AI음성의 위험성은 오작동이다. 사용자가 LLM과 상호작용할 때 유명인 AI가 그 사람이 한 적이 없는 말을 하게 될 수도 있다.
AI사용과 관련한 라벨링도 중요하다. 또 AI 챗봇이 LLM으로 구동되는 경우, 모델에 제어 기능을 프로그래밍하여 범위를 벗어나거나 브랜드를 벗어난 것으로 간주되는 특정 응답(욕설 필터)도 제한해야 한다. LLM 기반 챗봇들은 스크립트 음성(텍스트 음성 변환 모델에 특정 텍스트 제공)에 비해 궁극적으로 제어하기 어렵기 때문이다.
일부 AI기업들은 이미 자정 시스템을 갖추고 있다. 일레븐랩스는 소비자가 업로드한 음성의 적정성 여부를 판단하기 위한 인간과 기계 심의 시스템을 도입했다. 서비스 약관에 따라 유해한 콘텐츠(혐오 발언)로 확인된 콘텐츠는 AI 음성이 생성되지 않는다.