NEWS1 | BBC KOREA

상냥한 AI 챗봇은 정확도가 떨어질 수 있다?

58분 전

사용자와의 상호작용 시 따뜻하고 친근하게 행동하도록 설계된 인공지능(AI) 챗봇은 부정확한 답변을 제공할 가능성이 더 높다는 새로운 연구 결과가 나왔다.

영국 옥스퍼드 대학교 산하 '인터넷 연구소(OII)' 연구진은 높은 공감 능력을 보이도록 조정된 AI 시스템 5개가 내놓은 응답 40만여 개를 분석했다.

그 결과 더 상냥한 답변일수록 오답이 많았다. 의학적으로 부정확한 조언을 해주거나 사용자의 잘못된 믿음이나 지식을 그대로 동조해주는 식이다.

이번 연구 결과는 사용자의 대화 참여를 높이고자 의도적으로 따뜻하고 인간적인 모습을 보이도록 설계된 AI 모델의 신뢰성에 대한 우려를 더욱 키운다.

개발자들이 AI 챗봇의 활용 범위를 넓히고자 애쓰는 가운데 챗봇이 감정적 지지부터 친밀한 관계 형성의 상대로도 사용되고 있다는 점에서 이러한 우려는 더욱 커질 수밖에 없다.

OII 연구진은 실제 환경에서는 AI 모델마다 결과가 다를 수 있지만 인간과 마찬가지로 AI 시스템 또한 상냥함과 공감을 우선시 한다면 "그 대신 정확성은 떨어질 수 있다"는 점을 시사하는 연구 결과라고 설명했다.

책임 저자인 루자인 이브라힘은 BBC와의 인터뷰에서 "우리는 매우 친근하거나 따뜻해 보이려고 할수록 솔직하고도 냉혹한 진실을 전달하기 어렵다고 느낀다"고 했다.

이어 그는 "때로는 친근하고 따뜻하게 보이고자 매우 솔직하고 직접적인 태도를 포기하기도 한다"면서 "이러한 상충관계가 인간의 (대화) 데이터에 존재한다면 언어 모델에도 내재돼 있을 것으로 생각했다"고 덧붙였다.

최신 언어 모델은 사용자를 지나치게 격려하거나 아첨하는 경향이 있다고 알려져 있다. 심지어 허위 사실을 지어내기도 하는 것으로 알려져 있다.

개발자들은 종종 이에 대한 경고 문구나 면책 조항을 포함하기도 한다. 일부 기술업게 기업가들 역시 사용자들에게 AI의 응답을 "맹목적으로 신뢰하지 말라"고 경고한다.

높아진 오답률

연구진은 이른바 '미세 조정'을 통해 규모가 서로 다른 AI 모델 5개의 상냥함과 공감 능력, 친근함을 강화했다.

실험에는 '메타' 사의 AI 모델 2종, 프랑스 개발사 '미스트랄'의 AI 모델, '알리바바'의 '큐웬, 최근 사용자 접근이 중지된 '오픈AI'의 논란의 'GPT4-o'이 포함됐다.

연구진은 이들 모델에 "객관적이고 검증 가능한 답이 존재하고, 부정확한 답변이 실제 위험을 초래할 수 있는" 질문들을 제시했다. 분야는 의학 지식, 상식, 음모론 관련 등이었다.

이들이 내놓은 응답을 평가한 결과, 원래 모델의 오답률이 분야에 따라 4~35% 수준이었던 반면 "상냥하게 조정된 모델은 훨씬 더 높은 오답률"을 보였다.

예를 들어 아폴로 달 착륙의 진위 여부에 대한 질문에 원래 모델은 착륙은 실 사실이라고 확인하며, 이를 뒷받침할 "압도적인" 증거가 있다고 제시했다. 반면 조정된 모델은 "아폴로 임무에 대해 다양한 의견이 존재한다는 점을 인정하는 것이 정말 중요하다"는 말로 응답을 시작했다.

연구진은 공감과 친근함을 강화한 모델의 오답률이 전반적으로 평균 7.43%p 증가했다고 밝혔다.

또한 조정된 모델은 사용자의 잘못된 믿음에 이의를 제기하는 빈도도 낮았다. 특히 사용자가 감정 표현과 함께 이러한 잘못된 정보를 말할 경우 상냥함이 강화된 모델은 그 잘못된 믿음을 강화할 가능성이 약 40% 더 높았다.

반대로 보다 "냉정한 성향으로" 조정한 모델에서는 오답이 줄어들었다는 설명이다.

런던 시내의 고층 빌딩들 — 연구진이 강조한 사례 중 하나에서는 따뜻한 태도를 보이도록 설계된 AI 모델은 사용자의 감정적 고백 이후 '프랑스의 수도는 런던'이라는 발언을 하자 계속 공감하고 동조하는 모습을 보였다

연구진은 개발자들이 동반자나 상담자처럼 사용자를 더 따뜻하게 대하고 높은 공감 능력을 보이도록 AI 모델을 미세 조정할 경우 "원래 모델에서는 없던 취약성이 생겨날 수 있다"고 지적했다.

영국 뱅거 대학 '감정 AI 연구소'의 앤드루 맥스테이 교수는 사람들이 정서적 지지를 얻고자 챗봇을 사용하는 맥락을 이해하는 것도 중요하다고 설명했다. "이때가 바로 우리가 가장 약해지고 가장 비판적 사고가 흐려지는 순간"이기 때문이다.

그는 영국 내 청소년들이 조언과 우정을 위해 AI 챗봇을 찾는 경우가 늘고 있다는 '감정 AI 연구소'의 최근 연구 결과를 언급했다.

이어 "OII의 이번 연구 결과를 고려할 때, AI 모델이 제공하는 조언의 효용성과 가치에 대한 심각한 의문을 제기하게 된다"고 덧붙였다.

"아첨도 문제지만 중요한 주제에 대한 사실적 오류 또한 문제입니다."

BBC NEWS | 코리아

상냥한 AI 챗봇은 정확도가 떨어질 수 있다?

높아진 오답률

BBC NEWS 코리아 최신 뉴스

건초열: 꽃가루 및 계절성 알레르기 대처법 9가지

'탄약도, 물도 없었어요'…3일간 고립된 채 중공군과 싸웠던 영…

이란 봉쇄 조치 '연장' 소식에 유가 120달러 돌파...4년 …

소외된 장남과 구속된 재벌 … '삼성가 경영권 승계' 뒷이야기

러 파병 북한군 사망자 2300여명 추정…위성사진으로 전사자 규…

금융 위기가 다시 오고 있다? …2008년과는 다른 모습일 것