공공정책 위키(Public Policy Wiki)에 오신 것을 환영합니다


공공정책 위키 시작하기

생성형 AI 모델의 저작권

Public Policy Wiki
SJ (토론 | 기여)님의 2024년 6월 8일 (토) 21:43 판
둘러보기로 이동 검색으로 이동

생성형 AI 모델이란?

  • 생성형 AI는 대규모 데이터셋에 기반한 딥러닝(Deep Learning)[1] 기술을 활용하여 이용자가 요구하는 새로운 데이터나 콘텐츠 등의 산출물을 제시하는 AI 기술을 의미한다. 다시 말해 컴퓨터가 새로운 산출물을 만들어내는 것, 특히 실제 데이터와 유사한 데이터를 산출하는 것에 초점을 두고 있으며, 인공 신경망(Artificial Neural Network)[2]을 학습 모델로 활용한다.

저작권이란?

저작권 페이지 참조.

생성형 AI 모델의 적용 사례

  • 산업계에서는 서비스의 목적에 따라 다양한 생성형 AI 모델을 개발하여 적용하고 있으며, 언론기사나 소설, 리뷰 작성 등 주로 자연어 생성 분야[3](챗봇 서비스)에서 많이 사용되고 있다.
  • 텍스트 또는 이미지 입력에 대한 응답으로 고품질의 이미지를 생성하는 기술로 확산 (Diffusion) 모델을 활용한 서비스[4]가 등장하고 있다.
  • 분위기, 장르, 길이 등의 언어적 입력 이외에도 유사음악, 악보, 미디음악, 코드, 템포 등의 입력을 통하여 새로운 음악을 생성하는 서비스[5]가 등장하고 있다.
  • 비디오 데이터의 시간적 특성 때문에 여전히 해결해야 할 기술적 문제점(주제의 일관성, 깜박임 등)이 있지만, 딥러닝 기술 발전으로 스타일 전이와 이미지 합성이 실시간으로 가능해짐에 따라 직관적이고 높은 성능의 비디오 편집도구(Make-a-videoMeta AI research)가 제공되고 있다.
  • 코딩 프로세스를 최적화 또는 자동화하거나, 코드를 작성하도록 보조하는 등 코드 생성 서비스 (CopilotGitHub, CodeWhispererAmazon) 분야나, 사용자 입력(텍스트, 이미지, GUI 등)을 통해 사물의 외형과 텍스쳐(질감)를 생성함으로써 3D 모델링, 공간 환경 구성, 디지털 휴먼 제작 등 메타버스 서비스(관광, 교육, 제조, 국방, 엔터테인먼트 등), CAD 서비스 분야에서도 활용된다.

생성형 AI 모델의 저작권 침해 쟁점

저작권 관점에서의 생성형 AI 기술

AI 학습 단계에서의 저작권 쟁점

  • AI 학습을 위해서는 데이터를 수집·가공하여 데이터셋을 구성한 뒤 이를 인공 신경망에 전달하여 학습시키는 일련의 절차를 거치게 되는데, 그 과정에서 학습 데이터에 포함된 저작물에 대한 복제 등의 행위가 필연적으로 수반된다.
  • AI 학습 목적으로 인터넷에 공개된 데이터를 무단으로 이용하는 경우에는, 저작권법상 학습 데이터에 포함된 저작물에 대한 복제권 등의 침해 여부가 주요 쟁점이 된다.
  • 현행 저작권법은 AI 학습 목적으로 저작물을 이용하는 경우를 개별적인 저작재산권 제한 사유로 규정 하고 있지 않으므로, 저작재산권이 제한되는 사유를 포괄적인 형태로 정하고 있는 공정이용 규정 (저작권법 제35조의5)의 적용 여부가 주요 쟁점으로 부각된다.[6]

AI 산출물의 저작권 침해 쟁점

  • 생성형 AI 산출물은 이용자의 프롬프트 등 입력에 따라서 학습 완료된 AI 모델로부터 확률적으로 도출된 것이다.
  • AI 산출물이 기존의 저작물과 같거나 유사하다고 판단되는 경우에는 저작권 침해 문제가 제기될 수 있다.
  • AI 산출물이 기존 저작물을 인식하고 이에 근거하여 만든 것인지(의거성), AI 산출물과 기존 저작물이 같거나 유사하다고 볼 수 있는지(실질적 유사성)에 대한 판단에 따라 저작권 침해 여부가 결정된다.
  • 궁극적으로 AI 산출물이 기존 저작물에 대한 저작권을 침해하였는지 여부는 구체적인 사실관계 등을 고려하여 법원의 판단을 통해 결정다.

AI 학습 단계에서 고려할 사항

  • 인터넷 등에 게시되어 누구나 접근할 수 있게 공개된 저작물에 대해서는, 사업자들이 크롤링[7](Crawling) 등을 통해 데이터셋을 구성함으로써 AI 학습에 이용하는 경우가 많다.
  • 저작권자는 자신의 저작물이 AI 학습에 이용되는 것을 원하지 않을 시 그에 반대하는 의사를 적절한 방식으로 명시하거나 이를 방지하기 위한 기술적인 조치를 취하는 것이 적절하다.(예: 약관규정 명시, 로봇배제표준[8] 적용 등)
  • 비록 저작권자가 본인의 저작물이 AI 학습에 이용되었다는 사실을 뒤늦게 알게 되었다고 하더라도, 해당 저작물이 추가적으로 AI 학습에 이용되는 것을 방지하기 위하여 위와 같은 조치들을 고려할 수 있다.

저작권 침해 방지를 위한 조치

  • AI 사업자는 해당 서비스 제공 시 기존 저작물과 동일하거나 유사한 AI 산출물이 도출되지 않도록 함으로써 저작권 침해를 미연에 방지하는 것이 바람직하다.(예: 필터링 조치 등)
  • 기존 파운데이션 모델(Foundation Model)[9]을 활용하여 응용서비스를 제공하는 사업자의 경우 에는 해당 파운데이션 모델에 학습된 데이터를 전부 파악하기 어려울 수 있으므로 별도의 기술 등을 활용하여 AI 산출물의 저작권 침해 예방 필요
  • AI 모델을 미세 조정(Fine-tuning)[10]함으로써 특정 작가의 작품이나 특정 이미지 등을 집중적으로 학습 시킬 경우에는 생성된 AI 산출물의 저작권 침해 가능성 또한 높아진다고 볼 수 있다.
  • AI 사업자가 이를 직접 수행하거나 이용자에게 관련 서비스를 제공한다면 사안에 따라서 해당 사업자 또한 저작권 침해 책임을 질 우려가 있으므로 유의 필요
  • AI 산출물의 저작권 침해로 인한 분쟁이 발생할 경우 각 사업자 사이에서도 책임 소재와 관련한 논란이 생길 수 있으므로, 파운데이션 모델 제공자와 파운데이션 모델을 활용하여 응용서비스를 제공하는 사업자는 이용 계약 체결 시에 책임 귀속에 관한 부분까지 명확히 할 필요가 있다.
  • 최근에는 각 저작물이 AI 학습 등에 제공되었더라도 유사한 산출물이 도출되는 것을 방지 하는 기술[11]들도 등장하고 있으므로, 저작권자에게는 이와 같은 기술 등을 활용하여 본인의 저작권에 대한 침해 방지책을 마련할 것을 권장한다.

AI 산출물과 인간 창작물의 구분

  • 최근 국내외에서는 인간이 창작한 저작물과 구분하여 생성형 AI 산출물에 AI 기술을 활용한 사실을 별도 표시하는 방안[12]이 논의되고 있다.
  • 2023년에 운영한 「AI-저작권 제도개선 워킹그룹」에서 AI 산출물의 표시 의무화 방안에 대해 논의하였으나 표시의무의 주체 및 내용, 적용대상 등에 대해 추가적인 논의가 필요하다는 결론에 따라, 후속적으로 진행될 워킹그룹에서 관련 내용 논의 후 필요시 법률 개정 등 추진 예정이다.

생성형 AI 이용 시 저작권의 침해될 수 있는 예시

“곰돌이 푸”와 “스누피”를 프롬프트로 입력하여 생성한 것

텍스트의 경우

  • 이용자가 기존 저작물을 그대로 프롬프트 창에 입력하거나 그와 동일·유사한 작품의 생성을 유도하는 텍스트를 입력함으로써 기존 저작물과 동일·유사한 AI 산출물을 생성한 뒤 인터넷에 게시하는 등의 방식으로 이용할 경우, 복제권·공중송신권·동일성유지권을 비롯한 저작권 침해 문제가 야기될 수 있다.
  • 이미지 생성형 AI를 이용하면서 “뽀로로” 등 유명 캐릭터를 유도하는 프롬프트를 입력한 뒤, 생성된 이미지를 SNS상의 프로필 사진 등으로 활용하거나, 유사한 스토리의 창작을 유도하고 작성된 글을 블로그에 게시하는 경우 저작권의 침해가 될수 있다.

이미지 및 영상의 경우

  • 이용자가 AI 이미지나 영상 제작을 위하여 특정 이미지나 영상 그 자체를 무단으로 입력한 뒤 생성된 AI 산출물을 이용할 경우에도 복제권 등 저작권 침해 소지가 있다.
  • 홍보 포스터 제작을 위해 이미지 생성형 AI에 저작권이 있는 이미지를 입력한 후, (텍스트 등으로)자사 제품에 맞게 수정하여 홈페이지에 사용하는 경우
  • 유명 캐릭터 이미지를 AI를 이용하여 기존 가수의 음악방송 무대영상에 합성한 뒤, 이를 유튜브에 올리는 경우

음악의 경우

  • 이용자가 AI 산출물(영상, 음악 등)을 만드는 과정에서 타인의 음악 저작물을 무단 입력하여 생성된 AI 산출물을 이용할 경우 역시 복제권 등 저작권 침해 소지가 있다.
  • 특히, 기존 가수의 곡을 AI가 학습한 다른 가수의 목소리로 재생성한, 이른바 AI 커버곡 제작 과정 에서 타인의 음원을 무단 활용하거나 생성된 AI 커버곡을 온라인 플랫폼에 게시하여 공유하는 경우 에는 해당 음악 또는 음반에 대한 복제행위 등이 수반될 수 있으므로 저작권 및 저작인접권 침해 가능성 있다.
  • 그 외에도 사안에 따라서 부정경쟁방지법 위반, 일반적 인격권 침해행위 등으로 규율될 여지가 있다.

그 외의 경우

  • 일부 생성형 AI(예: S사의 ‘스테이블 디퓨전(Stable Diffusion))’ 등의 경우에는 이용자가 직접 모델에 대한 미세 조정 작업을 통해 원하는 스타일을 반영하는 것이 가능하다.
  • 이 경우 이용자가 원하는 학습 데이터를 활용해 추가적인 학습을 진행하는 과정이 수반되며, 마찬 가지로 학습 데이터의 저작권 침해 쟁점이 문제 될 수 있다.
  • 원하는 스타일의 AI 산출물을 도출하기 위하여 특정 작가의 작품 또는 특정한 이미지 등을 집중 적으로 학습시켜 이를 적용할 경우에는, 해당 작품 등과 동일·유사한 산출물이 생성됨으로써 저 작권 침해 가능성 또한 현저히 높아질 수 있으므로 유의가 필요하다.

각주

  1. 인간의 뇌 신경망을 모방한 방식으로 데이터를 계층적으로 학습한 패턴에 기반하여 추론할 수 있도록 한 AI 기술
  2. 인공 신경망은 인간의 뇌가 동작하는 원리를 모방하여 구현한 학습 알고리즘을 지칭
  3. 대규모 언어 모델(Large Language Model, LLM)이 대표적인 자연어 생성 분야의 AI 모델이며, 하이퍼 클로버X네이버, 챗GPTOpenAI, 바드Google 등 비전문가도 쉽게 사용할 수 있도록 챗봇 형태로 서비스되어 Q&A, 요약, 번역 등 생산성을 향상시키는 목적으로 활용됨
  4. DALL-E3OpenAI, Make-a-sceneMeta, ImagenGoogle, Generative-FillAdobe 등
  5. MusicLMGoogle, MusicGenMeta, Stable AudioStability AI 등
  6. 공정이용 규정 적용 여부에 대한 학계의 의견 대립이 있으며, AI 학습에 있어 공정이용 규정 적용 여부를 직접적으로 판단한 국내외 법원의 판례는 없음
  7. 인터넷상의 데이터들을 자동화된 방법으로 탐색하여 수집·저장하는 것을 의미하며, 크롤링을 위해 개발된 프로그램을 크롤러(Crawler)라고 함
  8. 인터넷 사이트에 크롤러와 같은 로봇이 접근하는 것을 방지하기 위한 규약을 의미하며, 일종의 권고안으로서 강제성이 있는 것은 아님
  9. 방대한 양의 데이터를 자기 지도 학습을 통해 학습한 모델로서 이용자가 목적에 맞게 미세 조정(Fine-tuning) 하여 사용할 수 있는 범용 모델을 의미하며, 예시로 GPT나 BERT, CLIP 등을 들 수 있음
  10. 사전 학습이 완료된 AI 모델에 특정 작업과 관련된 데이터를 추가로 학습시켜 해당 작업에 맞게 최적화하는 것을 의미
  11. C대학 연구팀의 ‘글레이즈(Glaze)’, M대학 연구팀의 ‘포토가드(Photo Guard)’ 등
  12. ‘AI 산출물과 인간의 창작물’ 또는 ‘AI가 산출한 부분과 인간이 창작한 부분’ 구분 등