주어진 명령(Prompt)에 따라 텍스트와 비디오, 오디오를 만들어내는 생성AI(Generative AI)는 미디어, 콘텐츠 업계에도 큰 영향을 미치고 있다.
언론도 마찬가지다. 뉴스룸에 AI 도입을 추진하고 있지만 동시에 저작권 등 수익 모델을 지키려는 움직임도 강하다.
1위 구독 미디어 뉴욕타임스는 AI와 전면전을 선언했다. 뉴욕타임스(The New York Times)는 2023년 8월 3일 이용 약관(terms of services)을 개정해 머신러닝이나 AI시스템을 위한 콘텐츠 수집을 금지했다.
뉴욕타임스가 나선 이상 다른 뉴스 미디어들도 같은 방향으로 움직일 가능성이 크다.
AI수집이 금지되는 콘텐츠는 텍스트, 사진, 이미지, 일러스트레이션, 디자인, 오디오와 비디오 클립 등 사실상의 모든 뉴스 포맷이다.
‘느낌’이나 메타 데이터(look and feel and metadata) 역시, AI 접근이 금지된다.
아울러 개정 ‘이용 약관’(TOS)에는 또한 기사 페이지에서 대량 언어모델이나 AI시스템을 훈련을 위해 기사를 자동으로 긁어모으는 웹사이트 크롤러(Website Crawler) 사용도 허용되지 않는다.
뉴욕타임스는 이 약관을 어길 경우 제재(penalties)를 받을 수 있다고 언급했다. 하지만, 구체적으로 어떤 위약금이나 제재인지는 밝히지 않았다. 미국 뉴스 미디어 약관에서 기사 무단 수집에 대한 금지 조항은 있었지만 AI를 명확히 구체적으로 언급한 것은 이번이 처음이다.
[크롤러로 언론사 콘텐츠 무단 수입하는 AI]
AI모델은 트레이닝을 위해 콘텐츠와 데이터에 의존한다. 생성AI가 학습하는 콘텐츠 중에는 뉴스 미디어이나 저작권 있는 예술 작품도 있다. 뉴스 기사를 학습하고 이에 기반해 답을 하는 것이다. 하지만 경우에 따라 뉴스 콘텐츠는 (허락 없이) AI의 의해 그대로 복제된다.
AI의 등장에 언론사들의 불만은 커지고 있다. 특히, 유료 구독 언론사들은 AI가 자신들의 수익을 갉아먹을지 우려했다. 허락 없이 콘텐츠를 수집하고 이를 변형해 제공하는 과정에서 가짜 정보가 난립할 수도 있기 때문이다. AI로 인해 뉴스에 대한 소비자들의 신뢰가 깨질 수도 있다는 걱정도 있다.
대량 언어 모델(LLM)이나 챗GPT은 웹사이트 크롤러와 유사한 방식으로 기사를 수집한다. 검색 결과를 찾기 위해 언론사 사이트나 소셜 미디어 피드에서 콘텐츠를 스캔하는 방식이다. 크롤러를 쓰면 원하는 기사를 대량으로 추출할 수 있다.
현재 뉴스 언론사들은 자신들의 사이트에 접속하는 크롤러 방문 기록을 확인할 수 있다. 그러나 검색 엔진 최적화인지 혹은 AI교육을 위한 것이 등 정확히 어떤 목적으로 사이트에 접속하는 지는 알 수 없다. 일부 언론사들은 크롤러를 막는 기술 도입을 검토하고 있다.
31억 5,000개 웹사이트에서 기사를 뽑을 수 있는 커먼크롤(CommonCrawl)과 같은 크롤러는 오픈AI, 메타 구글 등과 중계 계약을 맺었다. 의뢰에 따라 AI트레이닝을 위해 기사나 정보를 긁어주는 계약이다.
오픈AI와 같은 AI기업들은 AI모델을 교육시킬 때 어떤 콘텐츠를 사용하는 지 공개하지 않고 있다. 워싱턴포스트는 커몬크롤을 이용, 구글의 AI‘C4 데이터 세트’의 훈련 데이터를 공개한 기사를 내기도 했다.
워싱턴포스트에 따르면 C4는 1,500만 개 이상의 사이트를 이용하며 뉴욕타임스 등 거의 모든 뉴스 사이트를 참조하는 것으로 알려졌다. 이외 허용 동의를 받지 않은 사이트도 상당수 있는 것으로 분석됐다.
무분별한 정보 스크랩을 막는 AI 솔루션의 자체 움직임도 있다. 2023년 8월 초 오픈AI는 AI모델을 개선하기 위한 웹 크롤러 GPT봇(GPTBot)을 런칭했다. 이 크롤러는 언론사들이 웹사이트 콘텐츠에 접하는 GPT봇을 통제할 수 있는 것이 특징이다.
그러나 마이크로소프트 빙이나 구글의 바드 등의 생성AI툴은 자신들의 AI봇에 이런 기능을 탑재하지 않고 있다. 언론사들은 크롤러가 웹사이트에서 콘텐츠를 긁어가는 것을 제어하는데 어려움을 겪고 있다.
[AI의 접근을 막는 언론사들...정당한 보상 요구]
워싱턴포스트 보도 이후 언론사들 사이에는 AI의 훈련 용도 접근을 막는 트렌드가 확산됐다.
애드위크는 뉴욕타임스, 워싱턴포스트 등이 포함된 디지털 콘텐츠 관리 협회 ‘디지털 콘텐트 넥스트(Digital Content Next)’의 대관 담당 부사장 크리스 페디고(Chris Pedigo)이 개별 언론사들에게 이용 약관을 손봐 AI관련 조항을 넣으라고 요청했다고 보도했다.
현재 뉴스 이용 권리와 관련한 AI회사들과 메이저 언론사 사이 협상은 개별적으로 이뤄지고 있다. 협상의 기본 골격은 AI훈련용 기사 콘텐츠에 대한 보상이다.
챗GPT의 개발사 오픈AI는 통신사 AP와 함께 뉴스 콘텐츠 이용 계약을 맺었다. 1985년 이후 AP 기사를 AI 훈련을 위해 사용하는 계약인데 동시에 오픈AI는 2023년 7월 AP에 AI뉴스 개발 기술(AI를 이용한 뉴스 제작, 검색) 개발을 돕기로 했다.
하지만, 재정적인 이슈 외에도 해결해야 할 문제가 있다. AI결과물에 ‘콘텐츠 제공 언론사의 이름’을 각주 등의 형태로 삽입하는 방식과 가짜 뉴스나 오남용 정보 양산에 대한 안전판 마련이다.
언론사들은 자신들의 기사를 사용해 정보를 만드는 AI가 가짜뉴스를 양산하는 것을 막기 위해, 팩트체킹 시스템 등 가드레일이 필요하다는 입장이다. 페디고 부대표는 애드위크 인터뷰에서 “언론사들은 AI가 만든 정보가 자신들의 브랜드 수준에 부합하는 지를 확인하길 원한다”고 말했다.
[뉴욕타임스 디지털 가입자 920만 명]
뉴욕타임스는 지난 8월 8일 공개된 2023년 2분기 실적 발표에서 디지털 구독자가 919만 명으로 증가했다고 밝혔다.
CEO 메르디안 코빗 레비앙(Meredith Kopit Levien)은 실적 발표에서 스포츠 구독 미디어 ‘디 애슬레틱(the Athletic)’ 인수 이후(5억 5,000만 달러) 연간 기준 디지털 구독자 당 매출(revenue per digital user)이 처음 상승했다고 설명했다. 아울러 뉴욕타임스는 디지털 광고 매출이 예상보다 더 높아졌다고 공개했다.
뉴욕타임스의 2분기 기준 디지털 구독자는 18만 명 증가했다.
지면을 포함한 전체 뉴욕타임스 구독자는 999만 명이었다.
특히, 구독자 중 상당수가 2개 이상 상품을 구매한 번들 이용자였다. 통상적으로 번들 이용자의 해지율은 낮다.
레비앙 CEO는 “전체의 3분의 1 이상이 2개 이상의 구독 상품을 이용하고 있다”며 “향후 몇 년 내 번들 이용자가 50% 이상으로 성장할 것”이라고 강조했다.
뉴욕타임스는 최근 구조조정도 단행했다. 본사 스포츠 부서를 없애고 애슬레틱에 일일 스포츠 보도를 맡긴 것이다. 시너지를 높이고 번들(bundle) 구독을 확대하기 위해서다. 신문의 경우 뉴욕타임스와 애슬레틱의 번들 구독이 가장 강력한 고리다. 애슬레틱은 전년 대비 매출액이 55% 증가한 3,040만 달러를 기록했다. 2025년 흑자 전환을 계획하고 있다.
NYT의 디지털 광고 매출은 전분기보다 6.5% 증가했다. 팟캐스트가 부진했지만 애슬레틱과 게임 광고가 늘었다. 지난 분기 뉴욕타임스는 이어지는 경기 악화로 광고 비즈니스 실적 저조를 전망했었다. 뉴욕타임스는 다음 분기에도 한 자리 수 이상의 디지털 광고 매출 상승을 기대하고 있다.
뉴욕타임스의 분기 전체 매출액은 1년 전에 비해 6.3% 높아진 5억 9,090만 달러를 기록했다. 순이익은 25% 감소한 4,660만 달러였다.
구독 번들 할인에도 뉴욕타임스의 구독자 1인당 매출은 증가하고 있다. 복수 상품을 구독하는 독자들이 늘고 있다는 이야기다. 2분기 고객 1인당 매출액은 8.83달러에서 9.15달러로 올랐다.
뉴욕타임스의 디지털 전용 상품 구독자 매출은 13% 증가한 2억 6,980만 달러였다. 할인 프로모션 중단과 구독 가격 인상 때문이다.