기계와의 음성대화를 친밀하게 만드는 방법은 사람의 본질에 대한 더 깊은 관심과 이해에서 출발한다. 사람과의 동질성 수준을 확인하고자 하는 사용자의 시선은 감성적인 품질로 이어지고, 평가는 해당 시스템이 애정과 사랑을 줄 수 있는 대상인지에 대한 판단까지 이어질 수 있다.
최근 정보화 기기들이 똑똑하게 진보한 덕분에 스마트폰, 스마트 카, 스마트 하이웨이처럼 다양한 정보를 쉽고 간편하게 수신하고 활용할 수 있는 시대가 됐다. 또 이러한 활용은 단순히 유용한 정보를 일방적으로 수신하는 것이 아니라, 자신이 원하는 정보를 음성인식 기술 등을 통해 직접 질의해 찾을 수 있는 방법으로 가고 있다.
음성인식 기술은 일반적으로 다양한 사람의 음성 데이터를 취득해 분석한 뒤 훈련된 통계 모델을 기반으로 사람의 말을 알아듣도록 돼 있다. 아직 통계적으로 100% 인식은 불가능하지만, 스마트폰이나 차량에서 사용자의 명령을 이해하고 의도를 파악하기에는 충분한 정도의 수준이 확보돼 다양한 서비스에 대해 효율적 인터페이스로 사용되고 있다.
만족도 낮은 차량 음성인식
그러나 음성인식 기술에 대한 대중의 시선은 아직 긍정적이라기보다는 여전히 기대감만 높을 뿐이다. 차량 내 단말 음성인식 성공률이 95%를 훨씬 넘어 전 세계 거의 모든 OEM의 자동차 모델에 음성인식 기술이 장착되고 있지만 사용자들의 만족도는 이에 훨씬 못 미치고 있다.
이유는 여러 가지가 있겠지만, 오랜 시간 동안 음성인식 사용자들을 관찰해 온 결과, 사람들이 수신되는 정보의 내용뿐만이 아니라 음성인식 시스템이 얼마나 나와 동질성을 가지고 있는지를 확인하고 싶어하며, 이는 크게 주목할 만 하다. 음성인식과 음성합성 장치는 글이 없던 선사시대부터 이어져오는 매우 오래된 의사소통 방법이었던 음성대화를 기계가 대신 수행할 수 있도록 개발된 것이다. 그만큼 사람들은 이 장치에 평소에 자신이 사용하는 입말의 기능과 형식을 얼마나 잘 흉내 낼 수 있는가를 기대하며 높은 관심을 보인다.
이런 점에 주목하면, 현재 추진 중인 여러 노력과는 약간 다른 관점에서 음성인식과 음성합성 기술의 발전 방향을 예상할 수 있다. 보통 사람들은 음성 언어를 이용해 자신의 감정을 표현하거나, 다른 사람에게 일을 지시하고, 가까운 사람과의 친교를 강화하며, 지식과 정보를 전달한다. 의미 없는 감탄사를 무의식적으로 내뱉기도 하지만, 개인의 상상력을 예술적 경지로 승화시키는 데에도 언어를 사용한다.
즉, 기술적 관점에서 음성인식과 음성합성 기술, 콘텐츠 연동을 이용한 정보 전달의 정확성과 빠른 속도가 매우 중요하게 여겨지지만, 사람들은 오히려 음성인식 시스템이 다소 느리게 반응하더라도 나의 다양한 표현을 얼마나 잘 이해하고, 음성합성의 목소리 톤은 얼마나 상황에 잘 맞는지를 매우 중요하게 여길 수 있다. 정보는 정확하고 빠르게 전달될 수 있지만 시스템이 단지 표현만 바꾼 내 말의 의미를 이해하지 못하고 응답하는 목소리가 나를 매우 불쾌하게 만든다면 ‘시스템은 과연 잘 만들어진 것일까’란 의문이 드는 것이다.
차량용 인포테인먼트 서비스는 차량 전장 시스템에 명령을 내리는 기능 위주로 음성인식 기술이 사용돼 개발 방향도 어떤 명령을 수행했는지에 대한 응답을 음성합성 기술로 출력하는 방식이 10여년 넘게 지속돼 왔다. 또한 최근의 흐름인 서버 기반 음성대화 시스템의 도입도 기본은 정보의 전달 기능 강화에 있는 상태에서 상세 정보와 의도의 파악을 위한 대화처리 기술이 적용되고 있는 상황이다. 그러나 정해져 있는 명령어만을 말해야 하거나, 이미 가지고 있는 콘텐츠 정보를 형식에 맞게 전달하기 위한 수단으로서의 질문과 대화는 사용자를 식상하게 만들 뿐이다. 사용자는 시스템과의 대화를 통해 유용한 정보를 듣는 부분뿐만 아니라 사람과 대화하는 것과 같은 느낌도 중요시 한다.
기계 시스템이 사람과 같이 느껴지고 생각하는 수준의 인공지능 기술 구현은 아직 요원하다. 그렇지만 이를 감안하더라도 정해진 범위 내에서 친밀하고 다양한 시스템 반응과 응답에 대한 고민, 구현의 노력은 이뤄져야 할 것이다.
시리와 짚신장수 이야기
애플의 스마트폰 음성인식 시스템인 시리(Siri)는 “내일 날씨가 어때?”와 같은 전형적인 질문 외에 “내일 우산이 필요할까?”라는 질문도 이해할 수 있다는 점이 매우 큰 마케팅 포인트가 됐다. “사랑해”라고 말했을 때 “다른 모바일폰에는 그런 얘기 하지 않았으면 해요”, “아직 우린 서로 잘 모르쟎아요”, “전 그저 비서일 뿐이에요”라고 대답해 사용자들을 유쾌하게 만들었다. 비록 이것이 미리 정해 놓은 문구를 무작위로 출력하는데 그치더라도, 사람이 말하는 것과 같이 상황에 맞게 자기감정을 표현하거나 때로는 놀라움과 고통의 외마디 비명도 지르고, 오래된 시구를 인용하는 모습은 시스템을 더 친화적으로 만들 수 있는 방법이다.
사용자의 만족도는 이렇게 간단하고 별 것 아닌 것 같은 사소한 것에서 판가름이 나는데, 이는 우리의 오랜 전래동화인 ‘짚신 장수 이야기’에서 들어봤던 것이기도 하다. 아버지와 아들이 만든 짚신은 똑같이 생겼지만 아버지의 짚신만 잘 팔린다. 그 비밀은 아주 사소한 것에 있었는데, 그것은 사용자를 위한 작은 배려로 짚신의 잔털을 매끈하게 문지른 것뿐이었다. 지금 우리에게 이 비밀을 푸는 열쇠가 ‘UX’라는 이름으로 다가왔다.
음성인식 기술은 각 개발사가 거의 유사한 알고리즘을 이용한다. 그 안에 사용된 데이터의 양과 태깅의 정밀도, 그리고 훈련과 모델링의 노하우가 품질을 좌우한다. 동일한 시스템 구조를 갖더라도 애플의 시리와 같이 사람과의 동질성을 얼마나 획득할 수 있는가에 또 하나의 만족도 개선 방안이 숨겨져 있는 것이다. 이것은 기술적으로 해결 불가능한 고난이도의 작업이 아니다. 비용이 막대하게 들어가는 대규모 프로젝트도 아니다. 단지 우리 주변의 사람을 좀 더 주의 깊게 관찰하고, 언어의 기능과 역할을 제대로 이해하는데 노력을 기울이는 작업, 우리가 사소하다고 생각하기 쉬운 그런 일이다.
그렇다면 사람과 비슷한 음성 시스템을 만들어 사용자의 만족도를 높이기 위해 우리에게 필요한 것은 무엇일까. 사람과 시스템이 자연스럽게 대화를 이어가고, 사용자에게 불편함과 이질감을 주지 않기 위해서는 무엇이 필요할까.
기계와의 대화를 친밀하게 만드는 법
이를 위해서는 몇 가지 기술의 성능 개선이 필요하다. 안부 인사에는 즐거운 인사로 대답하고, 궁금한 질문에는 박식한 답변으로 응대하며, 초대에는 유쾌하게 수락하는 응답 기능이 시스템과의 친밀성을 높일 수 있다. 또 대화 상대와 나의 관계를 파악해 사용하는 어휘를 자동으로 달리하는 어휘변화 기술, 앞에 나온 말을 다른 말로 받아 사용하는 자동 어휘대용 기술, 대화하는 사람들 사이의 기본 지식이 전제가 되는 맥락이해 기술 등을 차례로 개선함으로써 사람과 구분하기 어려운 대화 시스템을 설계할 수 있다.
또한 대화의 격식을 자동으로 인식해 공적 말투와 표현이 필요한 경우와 일상적 대화가 이뤄지는 상황을 구분하고, 친밀도를 높여야 하는 상황인지 아닌지를 판단해 그에 따른 어법과 어휘 선택이 달라지도록 세분화 하는 기술도 사용자 만족도를 향상시키는 좋은 방법이 될 것이다.
더불어 사람의 의사소통은 비단 언어만으로 이뤄지는 것이 아니기 때문에 동작인식을 통한 몸짓, 손짓 인식, 눈 맞춤, 대화 상대와의 거리, 대화 상대의 외모 등에 대한 정보가 부가된 비언어 대화 처리 모듈의 개발도 기대할 수 있을 것이다.
결론적으로 기계와의 음성대화를 친밀하게 만드는 법은 결국 사람의 본질에 대한 더 깊은 관심과 이해에서 출발한다고 할 수 있다. 사람과의 동질성 수준을 확인하고자 하는 사용자의 시선은 감성적인 품질 개발로 이어지며, 평가는 해당 시스템이 애정과 사랑을 줄 수 있는 대상인지에 대한 판단까지 이어질 것이다.
이러한 점에서 최근 주목받고 있는 것이 패밀리 로봇이다. 예를 들어 깜찍한 외형의 패밀리 로봇 ‘지보(JIBO)’는 음성으로 대화하고 이야기를 들려주는 가족과 친구처럼 애정을 느낄 수 있는 대상으로 로봇이 진화하고 있음을 보여주고 있다. 음성대화 수준은 기존과 비교해 크게 나아진 것 같지 않지만, 중요한 것은 말하는 로봇을 바라보는 시선이 차가운 기계에서 따뜻한 가족으로 변화할 수 있다는 점을 보여준 가능성이다.
이러한 흐름을 볼 때, 사람들은 사람과 같이 생각하고, 그 생각을 제대로 표현하는 세련된 테크놀로지를 동경하고 기대하고 있으며, 이런 기대를 충족시키는 방향으로 기술도 발전해야 공감을 얻을 수 있게 될 것이다. 논리적인 추론 능력을 갖추고, 현상에 숨겨진 내면의 의미를 찾아내고, 그러한 일들을 일반화하며 과거의 경험으로부터 새로운 것을 학습하는 시스템을 개발하는 것은 사람과 비슷한 기계를 만들기 위한 기본 방향이 될 것이며, 이를 위해 인지능력을 극대화하고 이해 능력을 개선해 종국에는 정말로 똑똑한 기계를 만들어 사람들 속에서 함께 생활하도록 할 것이다. 또 이러한 생활은 사람의 그것과 매우 유사한 수준의 음성대화로 이뤄질 것이다. 시스템의 뛰어난 인지능력과 이해능력, 분석능력을 기반으로 해당 감각에 대한 심상을 떠올릴 수 있는 수준이 돼 비로소 사람들이 높은 만족감을 표시할 것이다.
지금 기술 수준에서 이처럼 완벽한 수준의 인공지능과 대화 시스템을 구현하는 것은 매우 어려운 일이다. 하지만 이미 1960년대 ‘2001 스페이스 오딧세이’라는 영화에 출연한 인공지능 컴퓨터 할(HAL)의 자유로운 인터뷰와 중후한 목소리에 대한 기대는 여전히 변함이 없고, 음성기술은 급격한 기울기로 향상되고 있다. 따라서 사용자 기대와 시스템 성능이 만나는 지점은 반드시 찾아올 것이다. 그리고 이 지점의 시간차는 우리가 들여야 하는 시간과 노력, 얼마나 깊이 있게 자신을 돌아보는가에 달려 있다.
<저작권자 © AEM. 무단전재 및 재배포, AI학습 이용 금지>