생성형 AI 모델의 저작권

생성형 AI 모델이란?

생성형 AI는 대규모 데이터셋에 기반한 딥러닝(Deep Learning)^[1] 기술을 활용하여 이용자가 요구하는 새로운 데이터나 콘텐츠 등의 산출물을 제시하는 AI 기술을 의미한다. 다시 말해 컴퓨터가 새로운 산출물을 만들어내는 것, 특히 실제 데이터와 유사한 데이터를 산출하는 것에 초점을 두고 있으며, 인공 신경망(Artificial Neural Network)^[2]을 학습 모델로 활용한다.

생성형 AI 모델의 적용 사례

산업계에서는 서비스의 목적에 따라 다양한 생성형 AI 모델을 개발하여 적용하고 있으며, 언론기사나 소설, 리뷰 작성 등 주로 자연어 생성 분야^[3](챗봇 서비스)에서 많이 사용되고 있다.
텍스트 또는 이미지 입력에 대한 응답으로 고품질의 이미지를 생성하는 기술로 확산 (Diffusion) 모델을 활용한 서비스(DALL-E3OpenAI, Make-a-sceneMeta, ImagenGoogle, Generative-FillAdobe 등)가 등장하고 있다.
분위기, 장르, 길이 등의 언어적 입력 이외에도 유사음악, 악보, 미디음악, 코드, 템포 등의 입력을 통하여 새로운 음악을 생성하는 서비스(MusicLMGoogle, MusicGenMeta, Stable AudioStability AI 등)가 등장하고 있다.
비디오 데이터의 시간적 특성 때문에 여전히 해결해야 할 기술적 문제점(주제의 일관성, 깜박임 등)이 있지만, 딥러닝 기술 발전으로 스타일 전이와 이미지 합성이 실시간으로 가능해짐에 따라 직관적이고 높은 성능의 비디오 편집도구(Make-a-videoMeta AI research)가 제공되고 있다.
코딩 프로세스를 최적화 또는 자동화하거나, 코드를 작성하도록 보조하는 등 코드 생성 서비스 (CopilotGitHub, CodeWhispererAmazon) 분야나, 사용자 입력(텍스트, 이미지, GUI 등)을 통해 사물의 외형과 텍스쳐(질감)를 생성함으로써 3D 모델링, 공간 환경 구성, 디지털 휴먼 제작 등 메타버스 서비스(관광, 교육, 제조, 국방, 엔터테인먼트 등), CAD 서비스 분야에서도 활용된다.

저작권이란?

저작권 페이지 참조.

생성형 AI 모델의 저작권 침해 쟁점

AI 학습 단계에서의 저작권 쟁점

AI 학습을 위해서는 데이터를 수집·가공하여 데이터셋을 구성한 뒤 이를 인공 신경망에 전달하여 학습시키는 일련의 절차를 거치게 되는데, 그 과정에서 학습 데이터에 포함된 저작물에 대한 복제 등의 행위가 필연적으로 수반된다.
AI 학습 목적으로 인터넷에 공개된 데이터를 무단으로 이용하는 경우에는, 저작권법상 학습 데이터에 포함된 저작물에 대한 복제권 등의 침해 여부가 주요 쟁점이 된다.

AI 산출물의 저작권 침해 쟁점

생성형 AI 산출물은 이용자의 프롬프트 등 입력에 따라서 학습 완료된 AI 모델로부터 확률적으로 도출된 것이다.
AI 산출물이 기존의 저작물과 같거나 유사하다고 판단되는 경우에는 저작권 침해 문제가 제기될 수 있다.

저작권 침해 방지를 위한 조치

AI 사업자는 해당 서비스 제공 시 기존 저작물과 동일하거나 유사한 AI 산출물이 도출되지 않도록 함으로써 저작권 침해를 미연에 방지하는 것이 바람직하다.(예: 필터링 조치 등)

특히, 기존 파운데이션 모델(Foundation Model)^[4]을 활용하여 응용서비스를 제공하는 사업자의 경우 에는 해당 파운데이션 모델에 학습된 데이터를 전부 파악하기 어려울 수 있으므로 별도의 기술 등을 활용하여 AI 산출물의 저작권 침해 예방 필요

AI 모델을 미세 조정(Fine-tuning)^[5]함으로써 특정 작가의 작품이나 특정 이미지 등을 집중적으로 학습 시킬 경우에는 생성된 AI 산출물의 저작권 침해 가능성 또한 높아진다고 볼 수 있다.

AI 사업자가 이를 직접 수행하거나 이용자에게 관련 서비스를 제공한다면 사안에 따라서 해당 사업자 또한 저작권 침해 책임을 질 우려가 있으므로 유의 필요

각주

↑ 인간의 뇌 신경망을 모방한 방식으로 데이터를 계층적으로 학습한 패턴에 기반하여 추론할 수 있도록 한 AI 기술
↑ 인공 신경망은 인간의 뇌가 동작하는 원리를 모방하여 구현한 학습 알고리즘을 지칭
↑ 대규모 언어 모델(Large Language Model, LLM)이 대표적인 자연어 생성 분야의 AI 모델이며, 하이퍼 클로버X네이버, 챗GPTOpenAI, 바드Google 등 비전문가도 쉽게 사용할 수 있도록 챗봇 형태로 서비스되어 Q&A, 요약, 번역 등 생산성을 향상시키는 목적으로 활용됨
↑ 방대한 양의 데이터를 자기 지도 학습을 통해 학습한 모델로서 이용자가 목적에 맞게 미세 조정(Fine-tuning) 하여 사용할 수 있는 범용 모델을 의미하며, 예시로 GPT나 BERT, CLIP 등을 들 수 있음
↑ 사전 학습이 완료된 AI 모델에 특정 작업과 관련된 데이터를 추가로 학습시켜 해당 작업에 맞게 최적화하는 것을 의미

[1] 인간의 뇌 신경망을 모방한 방식으로 데이터를 계층적으로 학습한 패턴에 기반하여 추론할 수 있도록 한 AI 기술

[2] 인공 신경망은 인간의 뇌가 동작하는 원리를 모방하여 구현한 학습 알고리즘을 지칭

[3] 대규모 언어 모델(Large Language Model, LLM)이 대표적인 자연어 생성 분야의 AI 모델이며, 하이퍼 클로버X네이버, 챗GPTOpenAI, 바드Google 등 비전문가도 쉽게 사용할 수 있도록 챗봇 형태로 서비스되어 Q&A, 요약, 번역 등 생산성을 향상시키는 목적으로 활용됨

[4] 방대한 양의 데이터를 자기 지도 학습을 통해 학습한 모델로서 이용자가 목적에 맞게 미세 조정(Fine-tuning) 하여 사용할 수 있는 범용 모델을 의미하며, 예시로 GPT나 BERT, CLIP 등을 들 수 있음

[5] 사전 학습이 완료된 AI 모델에 특정 작업과 관련된 데이터를 추가로 학습시켜 해당 작업에 맞게 최적화하는 것을 의미

[1]

[2]

[3]

[4]

[5]

공공정책 위키(Public Policy Wiki)에 오신 것을 환영합니다