정확도, 사용성 개선
Q. 자동차에서 음성기술이 각광받는 이유는.
A. 음성기술의 성능이 종전에 비해 월등히 높아지면서 자동차시장의 새로운 트렌드가 되며 메이커들의 주요 세일즈 포인트가 됐습니다. 또 구글의 보이스 웹 서치와 같은 신기술에 대한 사람들의 기대감 상승 또한 한 몫 했다고 생각합니다.
차량이 단순히 운송수단에 머물지 않고 최신 IT 기술들을 적용해 기술 집약체로 발전하면서 운전자가 운전 외에 보고, 조작해야 할 일들이 많아졌습니다. 이때 운전 집중도 분산에 따른 안전성 저하와 장치의 복잡성 증대, 조작 편의성의 문제가 증대되고 있는데, 이러한 문제들을 동시에 해결할 수 있도록 하는 것이 음성기술입니다.
최근의 내비게이션은 지상파 라디오, DMB 라디오/TV, CD, DVD, USB는 물론아이팟(iPod) 등의 모바일 기기, 블루투스 핸즈프리 등과 추가적으로 연결되고 있습니다. 이 때에 음성인식은 기능을 동작시키기 위해 여러 단계의 조작을 거치지 않고 단번에 명령해 사용할 수 있게 함으로써 편리함을 가져다줍니다.
기술의 발달에 따라 자동차에는 더 많은 기기와 기능들이 장착될 것입니다. 예를 들어, 차선이탈 방지, 충돌방지 등의 운전자 지원 시스템이나 위치기반 서비스, 지능형 교통 서비스 등의 텔레매틱스 서비스 등이 보편화 될 것입니다.
그러나 만일 운전석의 환경이 인터페이스의 발전 없이 그대로 진행된다면 비행기의 계기판처럼 복잡해질 것이지만, 음성인식 기술을 이용한다면 이 모든 기능을 PTT (Push to Talk) 버튼 한 개와 마이크 하나를 통해 조작할 수 있으며 모든 상태가 음성으로 안내됨으로써 운전자의 안전과 편의를 보장할 수 있을 것입니다.
Q. 차량용 음성기술의 현재 수준은.
A. 현재 양산되고 있는 국내 음성기술은 고립어 위주의 시나리오 기반 방식입니다. 이러한 방식의 장점은 높은 인식률을 바탕으로 안정된 성능을 보이지만 사용성이 다소 떨어져 불편하다는 단점이 있습니다. 따라서 최근의 개발 추세는 ‘사용성의 개선’을 추구하는 방향으로 전개되고 있습니다.
현재 적용되고 있는 음성인식 기술은 내비게이션 조작(목적지 설정, 주소 검색, 명칭 검색, 전화 걸기, 지도 조작 등), 멀티미디어(라디오, CD/DVD, DMB 등) 기능 구동 등에 쓰입니다. 여기서 시스템은 대략 1,000개~2,000개의 조작 명령어를 인식합니다. 또 다국어도 지원할 수 있어 북미와 유럽, 중국 등 다양한 국가의 음성인식 엔진이 적용되고 있습니다.
Q. 사용성 개선이란 어떤 작업인가.
A. 운전자가 다른 사람에게 말하는 것처럼 오디오나 내비게이션 시스템에 말하게 된다면, 시스템 동작에 필요한 수백 가지의 명령어들을 기억할 필요가 없어질 것입니다. 그동안 음성 시스템의 가장 큰 문제점 중 하나는 운전자들이 원하는 정확한 기능을 동작시키기 위해 반드시 정확한 명령을 내려야 했다는 점입니다.
예를 들어, 라디오를 조작할 때 “FM 98.1”이라고 말해야 정확한 명령이었기 때문에, 생각하는 과정에서 약간의 입력 에러가 나타나기만 해도 시스템이 잘 인식하지 못했습니다. “FM, 어… 98.1”, “어…FM 98.1”처럼 주파수를 기억하지 못해 잠시 머뭇거리거나, “FM 98.1 틀어줘”, “빨리 FM 98.1 듣고 싶어”처럼 평소의 대화 형식으로 말하면 다른 결과가 나타나는 식입니다.
이처럼 매뉴얼을 읽지 않고 사용하는 고객들에 의해 발생하는 에러에 대해서도 대응할 수 있는 음성 시스템을 개발하기 위해 미디어젠은 언어처리 모듈의 추가 작업을 통해 사용성과 정확성을 높이는 작업을 진행하고 있습니다. 이러한 작업은 한국어뿐만 아니라, 각국 언어를 대상으로 진행됩니다.
Q. 미디어젠의 음성인식 플랫폼은 뉘앙스 엔진을 사용하는데.
A. 전 세계 자동차시장에서 뉘앙스의 영향력은 매우 큽니다. 최근 들어 경쟁사들의 활발한 움직임이 포착되고 있기도 하지만 대부분의 유명 자동차 메이커들은 뉘앙스의 음성인식 엔진을 사용합니다. 한국의 경우엔 미디어젠이 현대·기아자동차에 한국어 엔진을 제공하고 있으며, 북미 수출용 시스템엔 뉘앙스 엔진을 적용하고 있습니다.
뉘앙스는 전 세계적으로 유명한 음성기술 기업들을 차례로 인수 합병해 독점적 지위를 누리고 있고, 엔진 성능 또한 매우 우수합니다. 모바일 시장에서 보이스 웹 서치를 앞세운 구글의 공세가 거세지고 있습니다만, 오토모티브 시장에서는 뉘앙스가 한발 앞서 있다고 생각합니다. 다만 가까운 미래에 스마트폰 중심의 음성검색 기술이 차량에도 도입될 경우 이를 둘러싼 치열한 경쟁이 벌어질 것으로 예상됩니다.
‘글로벌 현대’ 뒷받침
Q. 회사가 10년 됐는데.
A. 미디어젠은 2000년에 설립됐습니다. 당시 국내에 음성인식 업체가 꽤 있었지만, 저희처럼 처음부터 자동차시장만 바라보고 개발해 온 업체는 없었습니다. 현대모비스(舊 현대오토넷)와 공동개발을 통해 원천기술을 확보했고, 이를 바탕으로 2005년에 쌍용자동차의 렉스턴과 체어맨에 최초로 음성 시스템을 적용해 양산을 시작했습니다. 이후 2007년부터 현대·기아자동차의 음성 시스템 개발 프로젝트에 참여했습니다. 최근에는 한국전자통신연구원(ETRI)의 음성인식 엔진을 기술이전 받아 시스템 성능을 향상시키기도 했습니다. 현재는 현대·기아자동차의 내수용 AVN(Audio Video Navigation)에 한국어 음성 시스템을 제공해 양산 중입니다. 2008년 이후 적용 라인업이 포르테, 아반떼 등 준중형차까지 확대되며 보급이 더욱 늘고 있습니다.
가장 최근에는 자체 개발한 음성 대화 플랫폼(Speech Interaction Framework, SIF)과 언어팩(Language Pack)의 결합인 음성대화 시스템(Speech Dialogue System, SDS)을 개발해 상용화를 앞두고 있습니다. 이는 한국어 이외의 다국어 음성인식이 가능한 음성 대화 플랫폼을 개발하는 프로젝트입니다. 다시 말해 다국어 엔진 포팅과 다양한 시나리오 처리, 장치 제어 및 연동 기능을 바탕으로 전 세계 다국어 음성인식/음성합성 시스템을 쉽고 간편하게 적용할 수 있게 하는 애플리케이션입니다. SDS는 다국어 음성 시스템을 개발하는데 있어 소요 시간과 비용을 크게 절감할 수 있도록 돕습니다. 미디어젠은 근시일 내에 SDS를 상용화해 현대·기아차의 내비게이션 및 오디오 단말기에 적용할 계획입니다. 현대·기아자동차의 기술력과 이미지 격상에 크게 기여할 것이라 생각합니다.
Q. 차량용 음성 기술의 미래를 내다본다면.
A. 음성인식 기술은 아직 완성된 기술이 아닙니다. 계속 발전하고 있습니다. 그러나 10년 전과 비교해 현재의 발전 속도는 대단히 빠릅니다. 곧 구술형(dictation) 서비스까지 가능할 것이라고 생각합니다. 한국어 딕테이션의 경우엔 2~3년 내에 상용화 수준으로 발전할 수도 있다고 생각합니다. 또한 이로 인해 새로운 시장의 출현과 응용 제품의 출시가 이뤄질 것입니다.
현재는 서버형 음성인식 기술의 성능과 속도에 대한 만족스러운 반응이 지속적으로 나타나고 있는 상황으로 볼 때, 음성인식 기술에 대한 소비자의 이해와 기대 또한 더욱 높아질 것입니다. 서버형 기술의 적용은 현재 제공되는 단말기 내장형에 비해 월등히 높은 고품질의 신규 서비스를 가능하게 할 것입니다.
<저작권자 © AEM. 무단전재 및 재배포, AI학습 이용 금지>