검색
연구논단

빅데이터 활용과 인공지능 개발을 위한 Text and Data Mining

149591.jpg

Ⅰ. 4차산업혁명과 정보분석기술

요즘 우리는 종종 4차산업혁명시대에 살고 있다고들 말한다. 그러나 사실 4차산업혁명의 실체가 무엇인지 아직 모호하고 확립된 개념 정의도 없는 것 같다. 지난 2017년 9월 출범한 4차산업혁명위원회의 표현을 빌리면, 4차산업혁명이란 ‘인공지능, 빅데이터 등 디지털 기술로 촉발되는 초연결 기반의 지능화 혁명’을 말한다. 다행히 ‘인공지능’과 ‘빅데이터’는 상대적으로 실체가 있는 개념으로 다가온다. 인공지능(artificial intelligence)이란 ‘인간의 지능이 가지는 학습, 추리, 적응, 논증 따위의 기능을 갖춘 컴퓨터 시스템’으로, 빅데이터(big data)는 ‘데이터의 생성 양·주기·형식 등이 기존 데이터에 비해 너무 크기 때문에, 종래의 방법으로는 수집·저장·검색·분석이 어려운 방대한 데이터’라고 정의할 수 있다.

빅데이터 자체로는 의미가 없다. 그 데이터로부터 가치 있는 정보를 찾아내어 이를 활용하는 것이 중요하다. 이를 금광에서 귀금속을 채굴하는 것에 빗대어 ‘데이터 마이닝’(data mining)이라 한다. 데이터 마이닝이 수치데이터와 범주형데이터를 다룬다면, 비정형적인 텍스트 데이터를 정형화하고, 특징을 추출하고 그로부터 의미 있는 정보를 캐내는 기술을 ‘텍스트 마이닝’(text mining)이라고 한다. 텍스트 마이닝은 데이터 마이닝의 일부인 셈이다. 인공지능은 머신러닝(machine learning) 내지 딥러닝(deep learning)을 통해 구현되는데, 머신러닝은 기본적으로 알고리즘을 이용해 데이터를 분석하고, 분석을 통해 학습하여 학습한 내용을 기반으로 판단이나 예측을 하게 된다. 결국 ‘텍스트와 데이터 마이닝’(text and data mining, 약칭 ‘TDM’이라 함)은 빅데이터의 활용과 인공지능의 개발에 필수적인 것이다. 그렇다면 우리는 인공지능과 빅데이터에 얼마나 준비되어 있는가? 저작권법의 측면에서 바라보자.


Ⅱ. Text and Data Mining에 관한 외국의 입법례

텍스트 또는 데이터의 분석 자체는 그 분석대상이 저작권법상 보호받는 저작물 또는 데이터베이스라 하더라도 법률상 문제가 없다. 그러나 분석대상의 수집과 기계가독 형태(machine-readable format)의 디지털 변환, 비정형적 텍스트의 정형화, 수집 또는 가공된 자료의 공유 등의 과정에 저작물의 복제·변형, 2차적저작물작성, 배포 또는 전송이 수반되며, 이러한 행위는 모두 그 권리자의 허락을 얻어야 한다. 이에 각국에서는 TDM의 필요성을 인식하여 일정한 요건 하에 이를 허용하는 입법을 하거나 판례에 의해 이를 허용하고 있다.

주요 국가들 중 TDM에 대해 입법적 대응을 가장 먼저 한 국가는 일본이다. 일본은 2009년 1월 19일 저작권법을 개정하여 TDM을 허용하였다. 당시 신설된 제47조의7에 따르면, 전자계산기에 의한 정보해석을 목적으로 하는 경우 필요하다고 인정되는 한도에서 저작물을 기록매체에 기록하거나 또는 번안할 수 있고, 다만 데이터베이스저작물은 예외로 한다. TDM의 주체, 영리성 유무 등에 대해서는 제한이 없으나, 이용방법은 복제 또는 번안으로 국한된다. 일본은 2018년 5월 25일 저작권법 개정을 통해 TDM에 관한 규정을 재개정하였다. 종래 법과 달리 최근 개정법은 일반조항의 성질을 띠고 있다. 2018년법 제30조의4는 저작물에 표현된 사상 또는 감정을 향수(享受)하는 것을 목적으로 하지 않는 경우에는 필요하다고 인정되는 한도에서 어떠한 방법인지를 불문하고 저작물을 이용할 수 있다고 규정하고, 이러한 비향수이용(非享受利用)의 하나로 정보해석, 즉 TDM을 예시하고 있다. 이용방법에 제한이 없기 때문에 데이터셋(data set)을 사업자간에 공유하는 것도 허용된다. TDM의 주체, 목적과 이용방법에 제한이 없으며, 저작권자에 대한 보상의무도 없다는 점에서 현존 입법례 중에서 TDM에 가장 우호적인 태도로 보인다. 이를 근거로 일본학자들은 일본을 ‘기계학습의 천국’이라 자랑하고 있다.

영국은 2014년 5월 19일 저작권법 개정을 통해 TDM을 허용하였다. 신설된 제29A조에 따르면 저작물에 적법하게 접근할 수 있는 개인이 오직 비상업적 연구목적으로 그 저작물에 기록된 것을 컴퓨터로 분석하기 위하여 복제물을 생성하는 것은 허용된다. 다만 가능하다면 출처를 표시하여야 하고 그 복제물을 타인에게 이전하거나 TDM 이외의 목적으로 이용하여서는 아니 된다. TDM을 금지하거나 제한하는 취지의 계약조건도 무효이다. TDM의 주체는 개인에 국한되고, 비상업적 연구목적이어야 하며, 출처를 표시하여야 하고, TDM 규정을 강행규정으로 한 점이 특징이다.


프랑스도 2016년 10일 7일 저작권법을 개정하여 TDM을 허용하였다. 신설된 제122-5조 제1항 제10호에 따르면, 공적 연구목적을 위한 학술문서에 포함되어 있거나 이와 관련된 텍스트와 데이터를 탐구할 목적으로 적법한 출처로부터 디지털 복사를 하거나 복제를 하는 것은 허용되며, 상업적 목적은 제외한다. TDM의 구체적 허용 요건, 연구종료 후 기존에 생성된 파일의 보존 방법과 공유에 대해서는 시행령에서 정하고 있다. 비영리 연구목적에 국한하고 있고, TDM의 대상자료가 학술문서에 포함된 것만 허용하고 있다는 점에서 그 적용 범위가 특히 좁다고 판단된다.

독일도 2017년 9월 1일 저작권법을 개정하여 TDM을 허용하고 있다. 신설된 제60d조에 따르면, 다수의 저작물(원자료)을 비영리의 학문적 연구목적으로 자동화된 방법으로 이용하기 위하여, 정형화, 구조화 및 범주화의 방법으로 이용되는 말뭉치(corpus)의 생성을 위해 원자료를 복제하는 것은 허용된다. 데이터베이스에 대한 TDM도 허용되며, 학문적 연구를 위해 일정한 범위 내에서 말뭉치를 전송하는 것도 허용된다. 말뭉치와 원자료의 복제물은 연구종료 후 원칙적으로 삭제하여야 하나, 기록보존소, 박물관과 교육시설 내에서 장기 보존하는 것은 허용된다. 원칙적으로 출처를 표시하여야 하고, 저작자에게 정당한 보상을 하여야 한다. 아울러 제23조도 개정되었는데, 이에 따르면 TDM 과정에서 오직 기술적으로 발생한 변경(예컨대 비정형적 텍스트를 일정한 포맷으로 정형화하는 것)에 대해서는 저작자의 허락을 받을 필요가 없다. TDM의 목적, 데이터베이스에 대한 TDM, 말뭉치의 공유, 삭제와 보존, 보상의무까지도 규정하고 있다는 점에서 가장 치밀한 입법으로 평가할 수 있다.

유럽국가들이 TDM을 비영리의 연구목적으로만 허용하고 있는 이유는 TDM을 허용하는 유럽연합차원의 명시규정이 없는 현재 각 회원국들은 정보사회지침(2001/29/EC) 제5조 제3항 (a)에 따라 TDM에 대한 제한규정을 입법할 수 있는데, 동조항은 비상업적인 교육 또는 연구목적으로 복제권과 공중전달권의 예외 또는 제한을 인정할 수 있다고 규정하고 있기 때문이다. 유럽연합은 2016년 9월 14일 공표된 디지털 단일시장 지침안{COM(2016) 593 final}에 TDM 관련 규정을 포함시키고 있으나, 구체적 허용 요건 등에 대해서는 아직 논의 중이고, 동 지침안은 2019년 초에 최종 확정될 예정이다.

미국 저작권법은 TDM에 관한 명시규정을 두고 있지 않으며, 다만 판례가 TDM을 저작권법 제107조의 공정 이용(fair use)의 일종으로 허용하고 있다. 즉, 미국 법원은 Authors Guild v. Google, Inc., 804 F.3d 202 (2nd Cir. 2015) 사건판결에서 구글의 도서 검색 서비스와 관련하여, 이는 데이터 분석을 위해 이용될 수 있으며, 인터넷 이용자가 원하는 표현을 포함하고 있는 책을 찾아 주는 것을 목적으로 하는 것으로 원저작물의 기능과 다른 기능을 수행하기 위한 것이고, 이는 ‘변형적’(transformative) 공정이용이라고 판시하였다. 이른바 ‘비표현적 이용’(non-expressive use)이라는 것이다.


Ⅲ. 우리의 현실과 대응방안

우리나라 저작권법에는 아직 TDM 관련 규정이 없다. 다만 2017년 12월 7일 박정 의원이 TDM을 허용하는 저작권법 일부개정법률안을 대표발의하여 현재 상임위에 계류 중이나, 이는 2009년 개정된 일본법을 큰 고민 없이 모방한 법률안으로 보인다. TDM에 대해 현행법 제30조의 ‘사적이용을 위한 복제’ 규정과 제35조의2에 따른 ‘저작물 이용과정에서의 일시적 복제’ 규정을 고려할 수 있으나, 일반적으로 TDM은 양 규정이 적용되는 전형적인 상황은 아니라는 점에서 한계가 있다. 한편, 저작권법 제35조의3의 ‘저작물의 공정한 이용’ 규정이 TDM에 적용될 가능성이 있음을 부정할 수는 없으나, TDM과 관련된 다양한 쟁점과 법적 안정성을 고려할 때 일반조항의 해석에만 의지하는 것이 바람직한지 의문이다. TDM의 주체와 목적, 원자료와 그 복제물, 말뭉치 내지 데이터셋의 공유와 보존, 출처표시의무, 보상의무 등의 각 쟁점에 대해 구체적으로 명시하는 개별적 제한규정이 바람직하다. 특히 산업발전의 측면에서는 주체와 목적을 제한하지 않을 것이 요구될 것이나, 적어도 영리목적의 경우에는 저작권자에 대한 보상의무를 인정해야 하지 않을까 생각한다.


안효질 교수(고려대 로스쿨)

미국변호사