공공정책 위키(Public Policy Wiki)에 오신 것을 환영합니다


공공정책 위키 시작하기

생성형 AI 모델의 저작권

Public Policy Wiki
SJ (토론 | 기여)님의 2024년 6월 8일 (토) 20:31 판
둘러보기로 이동 검색으로 이동

생성형 AI 모델이란?

  • 생성형 AI는 대규모 데이터셋에 기반한 딥러닝(Deep Learning)[1] 기술을 활용하여 이용자가 요구하는 새로운 데이터나 콘텐츠 등의 산출물을 제시하는 AI 기술을 의미한다. 다시 말해 컴퓨터가 새로운 산출물을 만들어내는 것, 특히 실제 데이터와 유사한 데이터를 산출하는 것에 초점을 두고 있으며, 인공 신경망(Artificial Neural Network)[2]을 학습 모델로 활용한다.

생성형 AI 모델의 적용 사례

  • 산업계에서는 서비스의 목적에 따라 다양한 생성형 AI 모델을 개발하여 적용하고 있으며, 언론기사나 소설, 리뷰 작성 등 주로 자연어 생성 분야[3](챗봇 서비스)에서 많이 사용되고 있다.
  • 텍스트 또는 이미지 입력에 대한 응답으로 고품질의 이미지를 생성하는 기술로 확산 (Diffusion) 모델을 활용한 서비스[4]가 등장하고 있다.
  • 분위기, 장르, 길이 등의 언어적 입력 이외에도 유사음악, 악보, 미디음악, 코드, 템포 등의 입력을 통하여 새로운 음악을 생성하는 서비스[5]가 등장하고 있다.
  • 비디오 데이터의 시간적 특성 때문에 여전히 해결해야 할 기술적 문제점(주제의 일관성, 깜박임 등)이 있지만, 딥러닝 기술 발전으로 스타일 전이와 이미지 합성이 실시간으로 가능해짐에 따라 직관적이고 높은 성능의 비디오 편집도구(Make-a-videoMeta AI research)가 제공되고 있다.
  • 코딩 프로세스를 최적화 또는 자동화하거나, 코드를 작성하도록 보조하는 등 코드 생성 서비스 (CopilotGitHub, CodeWhispererAmazon) 분야나, 사용자 입력(텍스트, 이미지, GUI 등)을 통해 사물의 외형과 텍스쳐(질감)를 생성함으로써 3D 모델링, 공간 환경 구성, 디지털 휴먼 제작 등 메타버스 서비스(관광, 교육, 제조, 국방, 엔터테인먼트 등), CAD 서비스 분야에서도 활용된다.

저작권이란?

저작권 페이지 참조.

생성형 AI 모델의 저작권 침해 쟁점

AI 학습 단계에서의 저작권 쟁점

  • AI 학습을 위해서는 데이터를 수집·가공하여 데이터셋을 구성한 뒤 이를 인공 신경망에 전달하여 학습시키는 일련의 절차를 거치게 되는데, 그 과정에서 학습 데이터에 포함된 저작물에 대한 복제 등의 행위가 필연적으로 수반된다.
  • AI 학습 목적으로 인터넷에 공개된 데이터를 무단으로 이용하는 경우에는, 저작권법상 학습 데이터에 포함된 저작물에 대한 복제권 등의 침해 여부가 주요 쟁점이 된다.

AI 산출물의 저작권 침해 쟁점

  • 생성형 AI 산출물은 이용자의 프롬프트 등 입력에 따라서 학습 완료된 AI 모델로부터 확률적으로 도출된 것이다.
  • AI 산출물이 기존의 저작물과 같거나 유사하다고 판단되는 경우에는 저작권 침해 문제가 제기될 수 있다.

저작권 침해 방지를 위한 조치

  • AI 사업자는 해당 서비스 제공 시 기존 저작물과 동일하거나 유사한 AI 산출물이 도출되지 않도록 함으로써 저작권 침해를 미연에 방지하는 것이 바람직하다.(예: 필터링 조치 등)

특히, 기존 파운데이션 모델(Foundation Model)[6]을 활용하여 응용서비스를 제공하는 사업자의 경우 에는 해당 파운데이션 모델에 학습된 데이터를 전부 파악하기 어려울 수 있으므로 별도의 기술 등을 활용하여

AI 산출물의 저작권 침해 예방 필요

  • AI 모델을 미세 조정(Fine-tuning)[7]함으로써 특정 작가의 작품이나 특정 이미지 등을 집중적으로 학습 시킬 경우에는 생성된 AI 산출물의 저작권 침해 가능성 또한 높아진다고 볼 수 있다.

AI 사업자가 이를 직접 수행하거나 이용자에게 관련 서비스를 제공한다면 사안에 따라서 해당 사업자 또한 저작권 침해 책임을 질 우려가 있으므로 유의 필요

  • AI 산출물의 저작권 침해로 인한 분쟁이 발생할 경우 각 사업자 사이에서도 책임 소재와 관련한 논란이 생길 수 있으므로, 파운데이션 모델 제공자와 파운데이션 모델을 활용하여 응용서비스를 제공하는 사업자는 이용 계약 체결 시에 책임 귀속에 관한 부분까지 명확히 할 필요가 있다.

AI 산출물과 인간 창작물의 구분

  • 최근 국내외에서는 인간이 창작한 저작물과 구분하여 생성형 AI 산출물에 AI 기술을 활용한 사실을 별도 표시하는 방안[8]이 논의되고 있다.
  • 2023년에 운영한 「AI-저작권 제도개선 워킹그룹」에서 AI 산출물의 표시 의무화 방안에 대해 논의하였으나 표시의무의 주체 및 내용, 적용대상 등에 대해 추가적인 논의가 필요하다는 결론에 따라, 후속적으로 진행될 워킹그룹에서 관련 내용 논의 후 필요시 법률 개정 등 추진 예정이다.

AI 학습 단계에서 고려할 사항

  • 인터넷 등에 게시되어 누구나 접근할 수 있게 공개된 저작물에 대해서는, 사업자들이 크롤링[9](Crawling) 등을 통해 데이터셋을 구성함으로써 AI 학습에 이용하는 경우가 많음
  • 저작권자는 자신의 저작물이 AI 학습에 이용되는 것을 원하지 않을 시 그에 반대하는 의사를 적절한 방식으로 명시하거나 이를 방지하기 위한 기술적인 조치를 취하는 것이 적절(예: 약관규정 명시, 로봇배제표준[10] 적용 등)
  • 비록 저작권자가 본인의 저작물이 AI 학습에 이용되었다는 사실을 뒤늦게 알게 되었다고 하더라도, 해당 저작물이 추가적으로 AI 학습에 이용되는 것을 방지하기 위하여 위와 같은 조치들을 고려할 수 있음

각주

  1. 인간의 뇌 신경망을 모방한 방식으로 데이터를 계층적으로 학습한 패턴에 기반하여 추론할 수 있도록 한 AI 기술
  2. 인공 신경망은 인간의 뇌가 동작하는 원리를 모방하여 구현한 학습 알고리즘을 지칭
  3. 대규모 언어 모델(Large Language Model, LLM)이 대표적인 자연어 생성 분야의 AI 모델이며, 하이퍼 클로버X네이버, 챗GPTOpenAI, 바드Google 등 비전문가도 쉽게 사용할 수 있도록 챗봇 형태로 서비스되어 Q&A, 요약, 번역 등 생산성을 향상시키는 목적으로 활용됨
  4. DALL-E3OpenAI, Make-a-sceneMeta, ImagenGoogle, Generative-FillAdobe 등
  5. MusicLMGoogle, MusicGenMeta, Stable AudioStability AI 등
  6. 방대한 양의 데이터를 자기 지도 학습을 통해 학습한 모델로서 이용자가 목적에 맞게 미세 조정(Fine-tuning) 하여 사용할 수 있는 범용 모델을 의미하며, 예시로 GPT나 BERT, CLIP 등을 들 수 있음
  7. 사전 학습이 완료된 AI 모델에 특정 작업과 관련된 데이터를 추가로 학습시켜 해당 작업에 맞게 최적화하는 것을 의미
  8. ‘AI 산출물과 인간의 창작물’ 또는 ‘AI가 산출한 부분과 인간이 창작한 부분’ 구분 등
  9. 인터넷상의 데이터들을 자동화된 방법으로 탐색하여 수집·저장하는 것을 의미하며, 크롤링을 위해 개발된 프로그램을 크롤러(Crawler)라고 함
  10. 인터넷 사이트에 크롤러와 같은 로봇이 접근하는 것을 방지하기 위한 규약을 의미하며, 일종의 권고안으로서 강제성이 있는 것은 아님