말로 하면 ‘되고’
10년 후면 스탠리 큐브릭의 영화 “2001: 스페이스 오딧세이”(1968)의 주인공, 말하는 우주선 ‘HAL 9000’과 같은 컴퓨터가 차 안에 장착될 것이다.
사람의 말을 알아듣는 음성인식 기술(Speech Recognition, Voice Recognition)은 컴퓨터 분야의 HCI(Human Computer Interface)와, 기계에 응용되는 HMI(Human Machine Interface)의 한 부분으로 활발히 연구가 진행 중이다. 음성 기술이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자나 데이터로 전환해 처리하는 것을 말한다. 키보드 대신 음성으로 입출력하는 방식으로 로봇, 텔레매틱스 등을 제어하거나 정보 검색에 응용된다. 음성 기술은 사람 말을 알아듣는 음성인식, 인간 목소리를 합성해 내는 음성합성(Text to Speach: TTS), 인식한 음성이 복수의 뜻을 지녔을 때 무엇을 의미하는 지 알아내는‘자연언어처리(Natural Language Processing), 미리 기록해 둔 음성 패턴과 비교해 개인의 목소리를 기억 인증 등의 용도에 사용하는 화자인식(Speaker Recognition) 등으로 분류한다.
음성인식의 양대 산맥은 IBM과 뉴안스 커뮤니케이션스(Nuance Communications)다. ‘HAL’이 IBM의 한 글자씩 앞 알파벳에서 따온 이름이라는 것은 잘 알려져 있다. 음성인식 기술은 1952년 벨 연구소가 사람이 말하는 소리를 인식해 다이얼을 돌리는 연구에서 시작됐는데, 후에 ViaVoice 솔루션을 개발한 IBM이 AT&T를 제치고 음성인식의 대명사가 됐다. 뉴안스 커뮤니케이션스는 전세계 음성인식 시장의 리더로 Dragon Naturally Speaking 솔루션으로 알려진 스캔소프트와 뉴안스가 2005년 합병하며 탄생했다.
이들 PC 기반 솔루션들은 자동차에 접목되며 제한적인 명령 수행 능력을 보여주고 있다. 혼다의 2005년형 세단 어큐라 MDX의 내비게이션은 “가장 가까운 주유소를 찾아라”란 명령을 받아 단말기를 구동한다. 어큐라의 내비게이션 시스템은 IBM의 ViaVoice 기반으로 음성인식, TTS 기능을 통해 운전자가 거리나 도시 이름을 말하면 내비게이션에서 명령을 수행한다. 또 주행 중 지속적인 데이터 정보를 말한다. 미니밴 오딧세이는 음성인식 오디오 시스템을 선보였는데, 음성 명령으로 CD나 라디오를 단순히 한 곡, 한 채널씩 위 아래로 변경하는 것 뿐만 아니라 곡명을 말하거나 아티스트, 장르를 불러 선곡할 수도 있다.
이제는 음성을 통해 핸드폰의 문자 메시지를 차가 읽어주거나, 운전자의 음성을 문자 메시지로 변환해 전송하기도 한다. 최근에는 음성으로 차의 창문을 조작하고 에어컨이나 히터 조절 기능도 가능해졌다.
음성인식 내비는 표준
음성인식 시장은 콜 센터, 휴대용 뮤직 플레이어 등 가전제품과, 어학교육 등 콘텐츠 증가가 성장을 견인하고 있다. 2006년 이미 전체 음성인식기술 시장은 10억 달러 규모를 넘어섰고, 최대 활용 분야인 콜 센터용 서버 기반 음성인식 부문은 내년이면 12억 달러에 이를 전망이다. 그러나 향후 시장과 기술 혁신은 자동차 시장이 주도할 전망이다.
스트래티지 애널리틱스(Strategy Analytics)에 따르면 2005년 4,400만 달러, 2,280만 유닛 수준이던 자동차 음성기술 시장 규모는 2013년 6,500만 달러 규모로, 7,800만 유닛이 팔릴 전망이다. 음성인식 기술은 목소리로 차내 기능을 통제할 수 있어 운전자가 운전에만 집중할 수 있도록 도와 안전과 편의를 크게 높일 수 있다.
정부 차원의 법제화도 음성인식 기술의 확산에 영향을 미치고 있다. 미국에서는 핸드폰 사용으로 인한 교통사고로 매년 사망자 2,600명, 부상자 33만3,000명이 발생하고 있다. 이에 운전 중 핸드폰 사용 금지를 법제화하는 주정부가 늘고 있다. 이런 이유로 자동차 메이커들은 고가의 비용 문제에도 불구하고 브랜드 경쟁력을 높이기 위해 음성인식 기술을 확대 도입하고 있다.
음성 가이드는 이미 널리 보급됐다. 내비게이션의 경우 2006년 미국에서 200종이 넘는 내비게이션 시스템 모델을 조사한 결과, 단 3종의 모델만이 음성 기술을 탑재하지 않았다. 2005년 기준으로 630만 개의 내비게이션 시스템이 북미, 유럽, 일본에 출하됐는데 95%가 음성 가이드 기능을 탑재했고, 이 중 12%에 해당하는 75만 유닛은 음성 가이드와 음성인식 기능을 동시 탑재했다. 또 장착된 290만 유닛의 프리미엄 커뮤니케이션 시스템이 대부분 음성인식 기능을 내장했고, 320만 유닛이 생산된 차량 핸드폰 시스템 경우에는 80%인 250만 유닛이 음성인식 기능을 내장해 출하됐다.
자동차에서 음성기술 활용 및 개발 추세는 내비게이션을 시작으로 차내 컴퓨터 시스템과 무선 통신 기능을 통합시켜 이메일이나 문자 메시지를 운전자에게 읽어주거나 음성으로 답변할 수 있는 무선 통신으로 확대됐다. 음성 기술은 오디오나 TV를 조작하고 노래를 선곡하는 엔터테인먼트 시스템은 물론 윈도, 전조등, 공조 시스템 컨트롤 등 다양한 분야로 확대되고 있으며 미래에는 자동차의 거의 모든 기능을 통제하는 인터페이스가 될 전망이다.
『2007 제네바 모토쇼』에서 재규어, BMW, 벤츠 등은 음성인식이 가능한 핸즈프리 인터페이스를 선보였다. 세 브랜드 모두 핸들에 장착된 PTT(press-to-talk) 버튼을 누르고 말을 하는 방식이다.
아직까지 기능이 한정적인 것은 차량에 탑재될 수 있는 컴퓨터 메모리 한계, 프로세싱 등의 문제, 그리고 에러 발생으로 인한 안전 문제 때문이다. 많은 기능을 수행하기 위해서는 엄청난 용량의 어휘와 단어 등 데이터가 하드디스크에 저장돼야 한다. 프로세서는 복잡한 언어 해석을 빠르게 수행해야만 한다.
높은 비용도 음성 기술의 활용 폭을 제한한다. 일반적으로 음성인식 기능을 탑재하는데 800달러가 소요되는 것으로 알려져 있다. 이에 따라 어큐라, 아우디, BMW, 캐딜락, 인피니티, 재규어, 렉서스, 벤츠 등의 고급 모델에만 옵션으로 채택되고 있다.
그런데 이 같은 비용 문제에도 불구하고 음성인식 기능을 확대해 차에 도입한 곳이 있다. 포드는 음성인식 인포테인먼트 시스템 SYNC의 장착 비용을 밝히지 않고 있지만, 395달러에 옵션으로 제공하고 있다. 2008년 포드 링컨 머큐리의 12종 모델에 옵션으로 제공하고 있으며, 이 중에는 닛산의 VERSA와 같은 보급형 차량 모델도 있다. 시스템은 프리스케일의 ARM 11 프로세서, 마이크로소프트 OS, 256 MB DRAM, 2 GB 플래시메모리를 탑재하고, 뉴안스 커뮤니케이션스의 음성 기술 솔루션을 이용했다.
IBM은 향후 비용이 감소되고 차에 장착될 컴퓨터 성능을 끌어올릴 수 있다면 음성인식 수준은 놀랍게 향상될 것이라고 전망했다.
<저작권자 © AEM. 무단전재 및 재배포, AI학습 이용 금지>