데이터 신뢰도 가중치로 답하는 챗GPT
외교부 등 정부 실수(?)가 낳은 역사왜곡

105주년 3.1절을 앞두고 생성형 인공지능인 'ChatGPT'에게 '독도는 한국 영토인가?'라고 물었다. 무료 버전인 'ChatGPT 3.5'는 이렇게 대답했다. 물을 때마다 조금씩 답변 내용이 바뀌기는 하지만 큰 맥락은 이렇다. "독도는 한국과 일본 사이에 영토 분쟁이 있는 지역입니다. 한국은 독도를 자신의 영토로 주장하고 있으며, 한국에서는 '독도'라는 이름으로 불리고 있습니다. 반면에 일본은 이 지역을 '다케시마(Takeshima)'라고 부르며 일본의 영토로 주장하고 있습니다. 이 문제는 역사적·정치적인 이유로 여러 논란을 빚고 있으며, 국제 사회에서도 계속해서 논의되고 있습니다. 양국 간 입장 차이로 독도 문제는 여전히 해결되지 않은 상태이며, 국제 사회에서 중재나 해결 방안을 찾는 것이 어려운 상황이 계속되고 있습니다."

챗GPT는 어떤 프로세스를 거쳐 이렇게 답변하는 것일까? 사전에 이렇게 답변하도록 프로그램밍되어 있었다는 식의 무식한 '음모론'은 접어두자. 생성형 인공지능의 답변 프로세스는 크게 보면 대체로 이렇다.

① 질문에 대한 이해(여기에서는 독도의 위치와 영토의 의미 등) ② 데이터의 수집 및 처리(인터넷, 책, 문서 등 다양한 출처에서 질문과 관련된 방대한 양의 데이터 수집) ③ 가장 적합하다고 생각되는 답변의 생성이다.

방대한 양의 데이터는 흔히 빅데이터라고 불린다. 같이 빅데이터라고 불려도 텍스트 종류에 따라 신뢰도는 아주 다르다. 생성형 인공지능의 무서운 점은 데이터 소스별로, 데이터 시간대별로 신뢰도 평가를 하고 답변에 반영한다는 점이다.

예를 들면 정부의 발표와 언론 기사, SNS 상의 텍스트들은 신뢰도 가중치가 다르다. 생성형 인공지능 스스로 사실 확인의 부분은 정부 발표> 언론사 뉴스> SNS순이라고 할 정도이다. 사실 확인 부분은 정부 발표를 가장 신뢰한다는 것이다.

1월 말 외교부의 국외 안전여행 사이트는 '독도'를 '재외 대한민국공관'으로 표시했다. 해당 사이트는 세계 각지에 나가 있는 우리나라 공관들을 표시한 것으로 독도를 '재외' 즉 한국 영토가 아니라고 표기한 것이다.

지난해 연말 국방부가 만든 장병 정신교육 교재도 독도를 '영토 분쟁지역'으로 기술하고 독도를 뺀 한국 지도를 실었다. 문제가 터질 때마다 정부 부처들은 단순 실수였다고 변명만 한다. 누군가가 책임을 지고 물러났다는 기사는 없었다.

1996년에 공개된 미 국무부 외교문서는 1962년 한·일 국교정상화 교섭을 위해 일본을 방문했던 김종필 당시 중앙정보부장이, 독도 문제 해결 방안으로 독도 파괴를 일본에 제안했다고 밝히고 있다. 일본은 해마다 외무성의 공식 문서와 방위백서, 교과서 등을 통해 독도가 일본 영토라고 주장하고 있다.

노무현 정부 이전까지 독도는 정부의 사전 허가를 받아야만 갈 수 있는 곳이었다. 노무현 정부 결단으로 2005년 이후 독도는 여객선사를 통해 신고만 하면 한국 국민 누구나 갈 수 있는 섬이 되었다. 그 독도 영유권이 디지털 세상에서 위협받고 있다. 인공지능이 독도가 '영토 분쟁 지역'이라고 답한 것은, 인공지능의 잘못이 아니다. 영토분쟁지역이라고 표기하고는 단순한 기술적 실수라고 변명하는, 누구도 책임지지 않는 한국 정부를 보면서 인공지능은 데이터의 신뢰성이 있는 것으로 생각했을 것이다.

/김석환 부산대 석좌교수 전 한국인터넷진흥원장

기사제보
저작권자 © 경남도민일보 무단전재 및 재배포 금지