Thomson Reuters vs ROSS Intelligence 판결, AI 학습용 저작권 침해 경고
만약 여러분이 개발자나 창작자로서 AI 도구를 활용하거나 개발하고 있다면, 이 판결이 가져올 파급효과를 반드시 이해해야 합니다. 오늘은 이 판결의 의미와 함께 실무에서 안전하게 AI를 활용하는 방법을 구체적으로 알아보겠습니다.

Thomson Reuters 판결이 바꾼 AI 저작권의 패러다임
2025년 2월 11일, 델라웨어 연방법원의 Stephanos Bibas 판사는 AI 저작권 역사에서 분수령이 될 판결을 내렸습니다.
5년간 이어진 Thomson Reuters와 ROSS Intelligence 간의 법적 공방에서, 법원은 AI 모델 학습을 위한 저작물 무단 사용이 명백한 저작권 침해라고 판시했죠.
ROSS Intelligence는 자사의 법률 검색 AI를 훈련시키기 위해 Westlaw의 헤드노트 25,000개를 무단으로 복사하여 사용했고, 이에 대해 공정 이용(fair use)이라고 주장했지만 법원은 이를 받아들이지 않았습니다.
특히 주목할 점은 법원이 '중간 복제(intermediate copying)' 논리도 거부했다는 것입니다.
ROSS는 단순히 언어 패턴을 학습하기 위한 일시적 복제라고 주장했지만, 법원은 경쟁 제품 개발을 위한 창작적 요소의 복제는 변형적 사용이 아니다라고 명확히 선을 그었습니다.
이는 앞으로 개발자들이 "AI는 단지 학습할 뿐"이라는 방어 논리를 사용하기 어려워졌음을 의미합니다. 실제로 이 판결 이후 여러 AI 기업들이 데이터 라이선싱 협상에 적극적으로 나서기 시작했다는 후문입니다.
🚫 판결로 금지된 행위
저작권이 있는 콘텐츠를 라이선스 없이 AI 학습에 사용, 경쟁 서비스 개발을 위한 무단 데이터 수집, 웹 스크래핑을 통한 대량 저작물 복제
⚠️ 위험한 회색지대
학술 연구 목적의 제한적 사용, 비영리 교육용 AI 모델 개발, 공개 API를 통한 데이터 수집
✅ 안전한 접근법
정식 라이선스 계약 체결, 오픈 데이터셋 활용, 자체 생성 데이터 사용
개발자가 직면한 4가지 법적 위험 시나리오
AI 개발 과정에서 마주치는 저작권 위험은 생각보다 광범위합니다.
첫 번째는 직접 침해 리스크입니다. 웹에서 크롤링한 이미지나 텍스트를 모델 학습에 사용하는 순간, 여러분은 저작권법 제16조의 복제권을 침해하게 됩니다. 한 스타트업은 뉴스 기사 100만 건을 학습시킨 챗봇 서비스를 출시했다가, 언론사 연합의 집단 소송에 직면해 서비스를 중단한 사례가 있습니다.
두 번째는 간접 침해 책임입니다. 여러분의 AI가 생성한 콘텐츠가 원저작물과 유사할 경우, 기여 침해나 대위 책임을 물을 수 있습니다.
세 번째 위험은 계약 위반에 따른 손해배상입니다. 많은 개발자들이 간과하는 부분인데, API 이용약관이나 웹사이트 Terms of Service를 위반하여 데이터를 수집하면 계약법상 책임이 발생합니다. LinkedIn이 HiQ Labs를 상대로 제기한 소송처럼, 공개된 데이터라도 수집 방법에 따라 법적 문제가 될 수 있죠.
네 번째는 국제적 규제 리스크입니다. EU의 AI Act는 저작권 있는 콘텐츠로 학습한 AI 모델에 대해 의무적으로 공개하도록 규정하고 있으며, 이를 위반 시 전 세계 매출의 최대 6%에 달하는 과징금이 부과될 수 있습니다.
안전한 AI 모델 학습을 위한 실무 가이드
그렇다면 어떻게 해야 법적 리스크 없이 AI 모델을 학습시킬 수 있을까요? 가장 안전한 방법은 정식 라이선싱을 통한 데이터 확보입니다.
OpenAI가 뉴욕타임스, AP통신과 수백만 달러 규모의 라이선싱 계약을 체결한 것처럼, 상업적 사용을 위해서는 정당한 대가를 지불하는 것이 원칙입니다. 하지만 스타트업이나 개인 개발자에게는 현실적으로 어려운 선택이죠.
대안으로는 Common Crawl, Wikipedia, Stack Exchange 같은 오픈 데이터셋을 활용하는 방법이 있습니다. 이들은 명시적으로 재사용을 허락하거나 Creative Commons 라이선스를 적용하고 있어 상대적으로 안전합니다.
또 다른 전략은 합성 데이터 생성입니다. 실제 데이터를 모방한 가상의 데이터를 생성하여 학습에 활용하는 방식으로, 개인정보보호와 저작권 문제를 동시에 해결할 수 있습니다.
Synthetic Data Vault나 Gretel.ai 같은 도구들이 이를 지원하죠. 마지막으로 연방학습(Federated Learning) 접근법도 고려해볼 만합니다.
데이터를 중앙 서버로 가져오지 않고 각 사용자의 디바이스에서 학습을 진행한 후 모델 파라미터만 공유하는 방식으로, Google이 Gboard 예측 기능 개선에 성공적으로 적용한 사례가 있습니다.
이 방법은 데이터 소유권 문제를 원천적으로 회피할 수 있다는 장점이 있습니다.
데이터 출처 검증
수집하려는 데이터의 라이선스와 이용약관을 면밀히 검토합니다.
법적 검토 수행
변호사나 법무팀과 상의하여 잠재적 위험을 사전에 파악합니다.
라이선싱 협상
필요시 데이터 소유자와 정식 라이선스 계약을 체결합니다.
문서화 및 추적
사용한 모든 데이터의 출처와 라이선스를 명확히 기록합니다.
AI 학습 데이터의 라이선스별 활용 범위
AI 개발에 사용할 수 있는 데이터셋들은 다양한 라이선스를 가지고 있으며, 각각의 조건을 정확히 이해하는 것이 중요합니다.
MIT나 Apache 2.0 라이선스는 상업적 사용이 자유롭지만, 반드시 원저작자 표기를 해야 합니다.
특히 Apache 2.0은 특허권 부여 조항이 있어 AI 모델의 특허 출원 시 유리할 수 있죠.
반면 GPL 계열 라이선스는 '전염성' 때문에 주의가 필요합니다. GPL 데이터로 학습한 모델을 배포할 경우, 모델 자체도 GPL로 공개해야 한다는 해석이 있어 상업적 활용에 제약이 따릅니다.
Creative Commons 라이선스도 세부 조건에 따라 천차만별입니다.
CC0는 퍼블릭 도메인과 동일하게 자유롭게 사용 가능하지만, CC BY-NC는 비상업적 용도로만 제한되어 있어 수익 모델이 있는 서비스에는 사용할 수 없습니다.
CC BY-SA의 경우 동일 조건 변경 허락 조항 때문에 생성된 AI 모델도 같은 라이선스로 공개해야 하는 의무가 발생할 수 있습니다.
최근에는 AI 학습을 명시적으로 금지하는 'No AI Training' 조항을 추가하는 콘텐츠 제작자들이 늘고 있어, 데이터 수집 전 반드시 최신 라이선스 조건을 확인해야 합니다.
라이선스 | 상업적 이용 | AI 학습 허용 | 재배포 조건 | 주의사항 |
---|---|---|---|---|
MIT | 가능 | 가능 | 저작권 표시 | 가장 자유로운 조건 |
Apache 2.0 | 가능 | 가능 | 저작권+변경사항 표시 | 특허권 보호 조항 포함 |
GPL v3 | 가능* | 논란 | 소스코드 공개 | 파생 모델도 GPL 적용 가능 |
CC BY | 가능 | 가능 | 저작자 표시 | 원저작물 링크 필요 |
CC BY-NC | 불가 | 비상업용만 | 저작자 표시 | 광고 수익도 상업적 이용 |
CC BY-SA | 가능 | 가능 | 동일 라이선스 | AI 모델도 CC BY-SA 적용 |
CC0 | 가능 | 가능 | 없음 | 퍼블릭 도메인과 동일 |
주요 플랫폼의 AI 저작권 정책 비교 분석
각 플랫폼마다 AI 관련 정책이 상이하므로 서비스 개발 시 반드시 확인해야 합니다.
GitHub는 Copilot 논란 이후 공개 저장소 코드의 AI 학습 사용에 대해 opt-out 옵션을 제공하기 시작했습니다. 저장소 설정에서 'Block GitHub Copilot'을 활성화하면 해당 코드가 AI 학습에서 제외됩니다.
YouTube는 더 엄격한 입장을 취하고 있는데, 동영상 콘텐츠를 AI 학습에 사용하려면 반드시 YouTube API 약관을 준수해야 하며, 스크래핑은 명시적으로 금지하고 있습니다. 위반 시 API 접근 차단은 물론 법적 조치까지 받을 수 있습니다.
OpenAI와 Anthropic 같은 AI 기업들도 자체 가이드라인을 제시하고 있습니다.
OpenAI는 GPT API로 생성한 콘텐츠의 저작권을 사용자에게 양도하지만, 생성물이 제3자 저작권을 침해할 경우의 책임도 사용자가 져야 한다고 명시하고 있죠.
Adobe는 Firefly AI 모델을 Adobe Stock과 공개 라이선스 콘텐츠만으로 학습시켜 '상업적으로 안전한' AI를 표방하고 있으며, 법적 분쟁 시 배상을 약속하는 것이 특징입니다.
이러한 플랫폼별 차이를 이해하고 프로젝트 특성에 맞는 도구를 선택하는 것이 리스크 관리의 첫걸음입니다.
GitHub
공개 저장소는 기본적으로 AI 학습 허용, opt-out 가능. Copilot 사용 시 생성 코드의 라이선스 확인 필수.
YouTube
API 외 스크래핑 금지, Content ID 시스템으로 저작권 보호. AI 생성 콘텐츠는 명시 의무화.
OpenAI
API 출력물 저작권은 사용자 소유, 단 침해 책임도 사용자 부담. 학습 데이터 출처 비공개.
Adobe
Firefly는 Stock 이미지로만 학습, 상업적 사용 안전 보장. 법적 분쟁 시 배상 약속.
오늘부터 적용할 수 있는 실전 체크리스트
지금까지 살펴본 내용을 바탕으로 당장 실천할 수 있는 구체적인 행동 지침을 정리해보겠습니다.
먼저 현재 진행 중인 프로젝트의 데이터 출처를 전수 조사하세요. Excel이나 Notion에 데이터셋 이름, 출처 URL, 라이선스 유형, 수집 일자, 사용 목적을 정리한 '데이터 계보(Data Lineage)' 문서를 만드는 것이 좋습니다. 이는 향후 법적 분쟁 시 중요한 증거가 될 수 있습니다.
두 번째로 라이선스 검증 도구를 활용하세요. FOSSA, WhiteSource, Snyk 같은 도구들은 오픈소스 라이선스를 자동으로 스캔하고 충돌 여부를 알려줍니다.
세 번째는 'AI 학습 금지' 메타데이터 확인입니다. 최근 많은 웹사이트들이 robots.txt에 'AI-Training-Disallow' 지시어를 추가하고 있으며, 이미지 파일에는 'NoAI' 메타태그를 삽입하는 추세입니다. 이를 무시하고 학습에 사용하면 명백한 의도적 침해로 간주될 수 있으니 주의하세요.
네 번째로 정기적인 법률 자문을 받으세요. 분기별로 한 번씩이라도 IP 전문 변호사와 상담하여 최신 판례와 규제 동향을 파악하는 것이 중요합니다. 마지막으로 보험 가입을 고려하세요. 최근 AI 저작권 침해를 보장하는 전문 보험 상품들이 출시되고 있으며, 연간 매출의 1-2% 수준의 보험료로 수억 원의 배상 리스크를 헤지할 수 있습니다.
🛠️ 추천 도구 및 리소스
- Have I Been Trained - 이미지가 AI 학습에 사용되었는지 확인하는 서비스
- Spawning AI - 아티스트들이 AI 학습 opt-out을 관리하는 플랫폼
- Data Provenance Initiative - 주요 데이터셋의 라이선스 정보를 제공하는 데이터베이스
- AI Verify - 싱가포르 정부가 제공하는 AI 윤리 검증 도구킷
- Model Card Toolkit - Google이 제공하는 AI 모델 문서화 프레임워크
법적 판례가 시사하는 AI 산업의 미래 방향
Thomson Reuters 판결을 단순한 개별 사건으로 볼 수는 없습니다. 이는 AI 산업 전체의 게임 규칙을 재정립하는 신호탄입니다.
법학 교수들과 실무 전문가들은 이번 판결이 Google Books 사건(2015)과는 정반대의 결론을 내렸다는 점에 주목하고 있습니다. Google Books는 도서 전체를 스캔했음에도 검색 가능한 데이터베이스 구축이라는 변형적 목적이 인정되어 공정 이용으로 판단받았죠.
하지만 ROSS Intelligence 사건에서 법원은 "경쟁 제품을 만들기 위한 복제는 변형적이지 않다"고 못박았습니다. 저작권법 제107조의 공정 이용 4요소 중 특히 '시장 대체 효과'를 중시한 것인데, 이는 향후 AI 관련 소송에서 중요한 판단 기준이 될 것으로 보입니다.
미국 저작권청이 2025년 5월 발표한 보고서도 같은 맥락입니다. 보고서는 "AI 모델의 가중치(weights) 자체가 저작물의 복제물일 수 있다"는 견해를 제시했는데, 이는 기술업계에 충격을 주었습니다.
지금까지 AI 기업들은 모델 가중치는 단순한 수학적 표현이라고 주장해왔지만, 저작권청은 이를 압축된 형태의 복제물로 볼 여지가 있다고 본 것이죠. 이러한 해석이 확립된다면 AI 모델 자체의 배포와 공유에도 제약이 생길 수 있습니다.
실제로 Meta가 LLaMA 모델을 공개할 때 "상업적 사용 시 별도 라이선스 필요"라는 조건을 단 것도 이런 리스크를 의식한 결과로 해석됩니다.
국제적 동향도 주목해야 합니다. EU AI Act는 2025년 8월부터 본격 시행되는데, 저작권 있는 콘텐츠로 학습한 AI는 반드시 그 사실을 공개하도록 의무화했습니다.
일본은 정반대로 AI 학습을 위한 저작물 이용을 폭넓게 허용하는 저작권법 개정을 추진 중이고, 중국은 생성형 AI 규제 초안에서 '합법적 데이터 출처' 요구 조항을 포함시켰습니다. 이러한 국가별 규제 차이는 AI 기업들의 '규제 차익거래(regulatory arbitrage)'를 유발할 가능성이 높습니다.
실무적 관점에서는 다중 관할권 컴플라이언스 전략이 필수가 되었고, 이는 특히 글로벌 서비스를 준비하는 스타트업들에게 큰 부담으로 작용할 것입니다.
하지만 위기는 곧 기회입니다. 라이선싱 시장의 급성장이 예상되는 가운데, Shutterstock, Getty Images 같은 콘텐츠 기업들은 AI 학습용 라이선싱을 새로운 수익원으로 만들고 있습니다.
Reddit이 Google과 연간 6000만 달러 규모의 데이터 라이선싱 계약을 체결한 것처럼, 양질의 데이터를 보유한 기업들에게는 오히려 새로운 비즈니스 기회가 열리고 있죠.
개발자 입장에서도 명확한 가이드라인이 생긴다는 것은 불확실성이 줄어든다는 의미입니다. 법적 리스크를 명확히 인지하고 정당한 절차를 따른다면, 오히려 경쟁자들과 차별화된 '클린 AI'로 시장에서 신뢰를 얻을 수 있을 것입니다.
마치며
Thomson Reuters vs ROSS Intelligence 판결은 AI 개발의 황금기가 끝나고 책임의 시대가 시작되었음을 알리는 분명한 신호입니다. 더 이상 "일단 만들고 보자"는 식의 접근은 통하지 않습니다. 하지만 이것이 AI 혁신의 종말을 의미하는 것은 아닙니다.
오히려 정당한 대가를 지불하고, 투명한 프로세스를 따르며, 창작자의 권리를 존중하는 지속 가능한 AI 생태계가 구축될 기회라고 봐야 합니다. 지금이야말로 여러분의 AI 프로젝트를 법적으로 견고하게 만들 때입니다. 오늘 제시한 체크리스트를 하나씩 실천하면서, 혁신과 준법이 공존하는 AI 서비스를 만들어가시기 바랍니다.
참고문헌
² U.S. Copyright Office, "Copyright and Artificial Intelligence Part 3: Generative AI Training" (Pre-publication version, May 9, 2025)
³ National Law Review, "Court: Training AI Model Based on Copyrighted Data is Not Fair Use as a Matter of Law" (February 11, 2025)
⁴ The Fashion Law, "Thomson Reuters Lands Win in Key Copyright v. AI Lawsuit" (February 12, 2025)
⁵ Skadden, Arps, Slate, Meagher & Flom LLP, "Copyright Office Weighs In on AI Training and Fair Use" (May 2025)
⁶ Ropes & Gray LLP, "Does Training an AI Model Using Copyrighted Works Infringe the Owners' Copyright? An Early Decision Says, 'Yes.'" (May 8, 2025)
'👨💼 실무자들의 놀이터' 카테고리의 다른 글
RIAA vs Suno & Udio 판결, AI 음악 생성의 법적 위험 경고 (1) | 2025.08.21 |
---|---|
Disney vs Midjourney 전면전, AI 이미지 생성의 저작권 운명을 가를 역사적 소송 (8) | 2025.08.11 |
음악 저작권료 실무 완전정복, 전문가를 위한 권리관리 전략 ⚖️ (4) | 2025.07.30 |
밀리의서재 vs 윌라 사건으로 보는 TTS 저작권 위험 완벽 가이드, 플랫폼 운영자를 위한 필수 대응법 (3) | 2025.07.29 |
🎬 영상저작물 창작자 정당보상 가이드, K-콘텐츠 시대 창작자 권리 보호 방안 (7) | 2025.07.22 |