As gen AI developers rush to collect data to train AI models, the demand for video content is also growing significantly. "There's a huge appetite for scraping high-quality content that's not yet available on the internet," Variety pointed out in a recent article.
"This could represent a new monetization opportunity for news organizations and content IP holders," Variety said, adding that training video models requires the use of advanced data.
The market for video data to train AI is still in early stages. The major hollywood studios are afraid of a future where video AI trains the way of filming their content and generates an AI "Inside Out 2". However, small and medium-sized studios are setting the standards, pricing, and methods for providing video for AI training.
생성 AI 개발자들이 AI 모델 트레이닝을 위한 데이터 수집을 서두르면서 동영상 콘텐츠에 대한 수요도 크게 증가하고 있다. 버라이어티는 최근 기사에서 “인터넷에서 아직 제공되지 않는 고품질 콘텐츠를 스크랩하고 싶어하는 수요가 크게 일어나고 있다”고 지적했다.
버라이어티는 “이는 뉴스 언론사나 콘텐츠 IP보유자에게 새로운 수익 창출 기회가 될수도 있다”며 “비디오 모델 훈련에는 고급 데이터 사용이 필수”라고 설명했다. 합성 데이터 사용하면 비디오 모델의 많은 결과물이 여전히 3D 현실을 완벽하게 시뮬레이션하지 못하는 것과 같은 문제가 발생할 수도 있기 때문이다.
AI훈련 자료로 동영상 데이터 제공하는 '비디오 라이선싱' 시장은 아직 초기다.
대형 스튜디오들은 비디오 AI가 자신들의 콘텐츠를 학습해 AI가 ‘인사이더2’를 만들내는 미래를 두려워하고 있다. 하지만, 중소 스튜디오 중심으로 AI 훈련을 위한 동영상 제공 기준과 가격, 방식이 만들어지고 있다.
[비디오 생성 AI에 대한 관심 증가가 새로운 시장 키워]
최근 생성AI업계에서 현재 비디오 생성 모델에 대한 관심과 투자가 집중되고 있다. AI개발사 사이에는 보다 더 정교한 AI모델 개발 경쟁이 치열하게 벌어지고 있다.
일부 대형 콘텐츠 스튜디오들은 AI비디오 생성툴을 자신의 회사에 최적화된 모델로 바꾸려는 이른바 ‘파인 튜닝(Fine Tuning)’ 작업도 활발하다. 비디오 생성AI 시장이 커질 수록 AI훈련 데이터를 제공하는 ‘영상 저작권 제공(Video Licensing) 기회’는 더 넓어질 수 있다.
AI비디오 생성 솔루션 시장은 연일 주인공이 바뀌고 있다. 오픈AI의 소라(Sora)가 시장을 장악했나 싶어던 이 시장에 런웨이(Runway)의 젠3(Gen3)의 등장했다.
현재는 클링(Kling)과 루마AI의 드림 머신(Dream Machine)이 강력한 경쟁자로 떠올랐다. 이외 AI비디오 모델 개발 경쟁은 뜨겁다. 버라이어티는 거의 65개 회사들이 이 시장에 뛰어들었다고 보도하기도 했다.
AI트레이닝을 위한 비디오 라이선싱은 아직 초기다.
그러나 AI개발자들의 동영상 비디오 콘텐츠 학습은 계속되고 있다. 현재 영상 콘텐츠 라이선스 논의는 셔터스톡(Shutterstock), 게티 이미지(Getty Images) 등 대형 영상 집합 플랫폼을 중심으로 나오고 있다. 로이터에 따르면 포토버킷과 같은 대규모 동영상 클립을 보유한 다른 업체들도 라이선스 협상을 진행 중인 것으로 알려졌다.
개별 스튜디오 간 동영상 콘텐츠 라이선스 제공 모델은 본격적이지 않다. 블룸버그(Bloomberg)는 지난 2024년 5월 알파벳, 메타, 오픈AI 등 생성AI빅테크 기업들은 할리우드 스튜디오와 AI 트레이닝을 위한 콘텐츠 제공 계약을 추진하고 있다고 보도하기도 했다.
하지만, 지금까지 영화 및 TV 콘텐츠의 동영상 제작 모델을 만들기 위한 의미있게 공개 인정된 라이선스 계약은 없었다.
오픈AI는 월스트리트저널(WSJ) 등 10여개 언론사들과 AI학습에 기사를 이용하는 계약을 맺은 것으로 알려졌다 향후 5년간 2억 5,000만 달러에 달하는 거래다. 그러나 이는 비디오가 아닌 텍스트나 사진 관련 거래에 국한되고 있다.
[중소 스튜디오에서 먼저 시작되는 비디오 라이선싱]
고품질 콘텐츠를 대거 보유한 디즈니 등 할리우드 메이저 스튜디오들은 AI 학습을 위한 라이선싱 계약에 주저하고 있다. 하지만, 중소 스튜디오들은 자산을 수익화하기 위한 작업에 발빠르게 움직이고 있다.
버라이어티는 칼리오페 네트워크(Calliope Networks)가 콘텐츠 라이선스를 수집, 영화, TV 에피소드, 사진 등 다양한 유형의 데이터 카탈로그를 구축해 AI 모델 학습을 위한 고품질 데이터 집합으로 활용하고 있다고 보도했다.
저작권 IP거래 회사처럼 콘텐츠 저작권을 인수해 이를 생성AI 훈련을 위한 데이터를 원하는 곳에 제공하는 것이다.
칼리오페 네트웍스 CEO이자 공동 설립자 데이브 데이비스(Dave Davis)는 버라이어티와 인터뷰에서 “지난 2월 소라 출시 이후 본격적으로 비디오 데이터를 위한 콘텐츠 수집을 시작했다”며 “콘텐츠 소유자와 파트너십을 통해 단편 영화, TV, 장편 영화 등 1만 개 이상의 타이틀, 1만7,000시간이 넘는 영화 및 TV 콘텐츠를 수집했다”고 밝혔다.
칼리오페 네트워크는 AI비디오 생성 모델을 만들고 있는 분야 대형 기업을 포함, 일부 AI회사들과 라이선싱 계약을 논의하고 있다. 데이비스는 올해 가을 일부 계약은 마무리될 것으로 예상하고 있다.
[AI트레이닝을 위한 AI비디오 데이터 준비]
칼리오페는 AI 학습에 유용하도록 데이터를 큐레이팅하고 높은 품질(충실도)과 다양한 콘텐츠를 수집하는데 집중하고 있다. 데이비스 대표는 “우리는 AI회사들에게 무엇이 중요한 지를 계속 파악하고 있다”며 “다양한 장소, 사물, 활동이 담긴 동영상 데이터를 확보하고 있다”고 말했다. 그는 또 “다양성을 위해 다큐멘터리의 경우 다소 비싼 가격(오버인덱스, over indexed)을 산정 했다”고 덧붙였다.
이어 그는 “카탈로그에 있는 모든 콘텐츠가 HD 혹은 더 높은 화질”이라며 “오래된 콘텐츠도 여전히 가치가 있기 때문에 적극 수집하고 있다”고 말했다.
비디오 생성AI 기업들이 원하는 콘텐츠는 웹이나 유튜브에서 쉽게 접근할 수 없는 고품질 프리미엄 콘텐츠다.
데이비스는 “개발자들은 당연히 다른 방식으로는 구하기 힘든 콘텐츠에 돈을 지불할 것”이라며 “글로벌 다큐멘터리는 일반적으로 유튜브에서 쉽게 구할 수 있는 콘텐츠가 아니다”라고 말했다. 그는 또 “기업으로 부터 직접 파일을 받을 경우 광고 제거와 같은 번거로움도 없다”고 설명했다.
[HD콘텐츠의 가격은 분당 6.25달러]
AI 훈련을 위한 데이터 세트로서의 콘텐츠 가격도 형성되고 있다. 현재 테크 기업과 스톡 동영상 제공업체 간 체결된 동영상 콘텐츠 라이선스 계약은 클립당 가격 또는 분당 가격 기준으로 지급되는 것으로 알려졌다. 로이터에 따르면 숏폼 동영상당 1달러 이상의 요금이 책정됐다고 보도하기도 했다. 물론 고품질 영화와 TV콘텐츠는 상당한 프리미엄이 붙을 가능성이 높다.
데이비스 대표는 버라이어티에 칼리오페의 HD 콘텐츠 정가는 분당 6.25달러로 책정되어 있으며, 4K 또는 3D 콘텐츠에는 추가 프리미엄이 붙는다고 설명했다.
지난 4월 블룸버그 보도에 따르면 어도비(Adobe)는 자체 텍스트-비디오 모델을 훈련시키기 위해 사진작가 및 비디오 제작자에 약 45분 동안 120달러, 즉 분당 3달러 미만의 비용을 지불하겠다고 제안한 것으로 알려졌다.
어도비는 사람의 손이나 눈 등 해부학적인 사진이나 물건을 들고 있는 사진 등 다양한 사람 활동과 관련한 영상과 사진을 수집하고 있는 것으로 전해졌다. 그러나 스마트폰 등 저작권이 있는 이미지가 있다면 이를 삭제하고 있다.
[하나의 계약에 하나의 콘텐츠 거래]
동영상 제공과 관련한 계약 조건도 속속 만들어지고 있다. 칼리오페의 표준 약관은 AI 학습을 하나의 모델로 제한하고 (콘텐츠) 학습 기간을 1년으로 정하고 있다. 이에 따라 AI 개발자는 계약 기간 1년 이내에 속하더라도 같은 콘텐츠 데이터로 새로운 모델을 학습시킬 수 없다. 만약 AI회사가 새로운 모델을 훈련시키기 위해 같은 콘텐츠를 쓰고 싶다면 미디어로부터 새로운 라이선스 계약을 다시 받아야 한다.
하나의 콘텐츠로 짧은 시간에 다양한 SW개발에 쓰는 것을 방지하기 위한 조항이다. 모델 업데이트는 자주 이루어지지만 개발자는 모델을 처음부터 다시 학습시켜야 한다.
Fairly Trained CEO 에드 뉴턴-렉스는 버라이어티와 인터뷰에서 “GPT-5가 처음부터 훈련받는 것처럼 새로운 모델은 처음부터 훈련받는다. 이것은 새로운 규칙”이라고 말했다. Fairly Trained는 공정한 학습 데이터 소싱을 하는 AI 기업을 인증하는 비영리단체다.
그러나 워너나 디즈니 등 메이저 콘텐츠 스튜디오들은 AI트레이닝을 위한 비디오 라이선싱 사업을 진행할 조짐을 보이지 않고 있다. 비디오 생성AI기업들을 ‘잠재적인 미래 경쟁자’로 보는 분위기 때문이다.
소라, 젠3와 같은 AI비디오 생성 모델들이 자신들의 고품질 콘텐츠를 학습한 뒤 스튜디오에 보다 더 뛰어난 콘텐츠를 만들어 내는 것들 두려워하고 있다. 과거 스튜디오가 넷플릭스에 프리미엄 콘텐츠를 제공해 재미를 봤지만 결국 ‘넷플릭스를 1위로 만들어줬다’는 두려움과도 일치한다.
하지만, 동의와 관계없이 AI 비디오 모델 개발자들은 이미 대규모로 데이터를 수집하고 있다. 404미디어는 런웨이가 저작권자의 동의없이 유튜버(영화)와 주요 동영상 유통 사업자의 콘텐츠를 학습하고 있다는 내용이 담긴 내부 스프레드시트를 폭로하기도 했다.
[메이저 스튜디오, AI 콘텐츠 라이선싱 나서야]
때문에 지금이라도 대형 스튜디오들이 적극적으로 라이선싱 협상에 나서야 한다는 주장이 많다. 데이비스 대표도 AI 라이선싱이 미래 수익 모델이 될 수 있기 때문에 ‘공정한 보상 협의’에 빨리 나서는 것이 중요하다고 보고 있다. 언론 미디어나 대형 스튜디오들이 힘을 합칠 경우 오픈AI나 메타 등을 제지할 수 있는 협상력이 생긴다.
모두가 AI와 크리에이터(콘텐츠 창작자) 미래에 대해 우려하고 있다.
그러나 아무 규칙 없는 상황이 이어질 경우 라이선스나 보상 없이 AI가 콘텐츠를 무단 학습하는 상황을 막아낼 수 없다는 것이 중론이다.
이와 관련 버라이어티는 비디오 콘텐츠 IP보유자들이 AI시대에 선택할 수 있는 결론지는 3가지라고 지적했다. AI회사에 콘텐츠를 라이선스하거나 저작권 침해를 찾아 소송을 제기하고 혹은 데이터 수집에 대항해 콘텐츠 유통을 보류하는 것이다. 미래 수익 확보를 위해 선택지는 자명할 수 있다.
사실 많은 일반인들이 우려하는 것과는 달리, 전문가들 사이에는 AI가 그렇게 많은 일자리를 줄이지 않을 것이라는 인식이 확산되고 있다.
물론 제작이나 마케팅, 콘텐츠 유통에 일부 일자리를 없앨 수 있지만 AI콘텐츠 유통, 영화 제작과 같은 새로운 일자리를 만들어낼 수도 있다. 게다가 AI를 이용한 콘텐츠 제작이 일반화되면 영화 제작 장벽도 낮아질 수 있다.