스팬션의 앨빈 웡 부사장이 자동차의 음성인식 성능을 획기적으로 향상시킬 수 있는 기술을 들고 방한했다. 웡 부사장과 차량용 음성 인터페이스의 방향을 짚어봤다.
Q자동차에서 100% 클라우드 음성인식 가능할까.
A. 사실상 불가능하다고 봅니다. 특히, 최상의 사용자 경험을 보장한다는 측면에서 그렇습니다. 음성인식을 지원하는 모바일 폰만 하더라도 인터넷 연결이 끊기면 음성인식 기능은 무용지물이 됩니다. 따라서 일종의 하이브리드 솔루션이 필요합니다. 온보드 프로세싱으로 음성인식을 제공할 수 있는 기술이 필요하고, 최신 데이터를 수시로 업데이트하기 위해 클라우드 연결에 대한 개선도 동시에 진행돼야 할 것입니다. 그러나 최근의 임베디드 시스템을 보면, 음성 처리가 되기는 하지만 그것이 최상의 결과 값을 보장하지는 못합니다.
대부분의 자동차에는 인포테인먼트 시스템이 있습니다. 여기에 애플리케이션 프로세서(AP)가 돌아갑니다. 그런데 AP는 많은 기능을 수행해야 합니다. 터치스크린, 뒷좌석 엔터테인먼트 시스템, 인터넷 연결성, 실시간 경로 파악 등 처리해야 할 기능들이 한두 개가 아닙니다. 여기에 복잡한 연산이 필요한 음성인식까지 더하면 할당해 줄 수 있는 리소스가 제한적입니다. 따라서 추가적인 MIPS와 메모리가 필요하고, 이런 요건들이 있다 보니 당연히 실제 사용자 경험은 생각만큼 좋지 않게 됩니다. 이런 병목현상을 해결하는데 필수적인 핵심 지적 자산을 스팬션이 보유하고 있습니다.
Q. 스팬션이 보유한 핵심 기술이라는 것은.
A. 스팬션은 오랫동안 축적한 메모리 기술이 있습니다. 여기에 맞춤형 로직을 접목시켜 전용 와이드 데이터 버스(wide data bus)까지 할당하게 되면 아키텍처 상에서 병렬처리가 가능하게 됩니다. 그 결과 매칭 과정이 좀 더 빨라집니다. 사운드 라이브러리는 어쿠스틱 데이터베이스 내에 저장돼 있습니다. 언어별로 고유의 사운드 라이브러리가 존재하고 어쿠스틱 데이터베이스를 활용하게 될 때, 스팬션 기술을 활용하면 기본적으로 대용량 코프로세서의 경우 10~12개의 언어 모델의 저장이 가능합니다. 저용량 코프로세서 모델의 경우에는 1~3개까지 언어를 저장할 수 있습니다.
전 세계 언어는 7,000개에 달한다고 합니다. 지방언어나 사투리까지 세분화하게 되면, 약 4만 1,000개까지 구분이 가능합니다. 이런 환경으로 인해 메모리와 로직, 소프트웨어의 통합 요구가 높아지고 있습니다. 그래야만 사용자 경험도 탁월해지고 음성인식 결과도 정확해지기 때문입니다.
사운드 라이브러리는 어쿠스틱 데이터베이스에 저장이 됩니다. 이 과정에서 최상의 매칭을 위한 어쿠스틱 스코어링이 이뤄집니다. 사용하는 대부분의 하드웨어는 태생적 한계를 가지고 있습니다. 따라서 지연을 줄이고 사용자 경험이 악화되는 것을 막기 위해 어쩔 수 없이 소규모의 데이터베이스 밖에 실행하지 못합니다. 실제로 기존의 시스템에 사운드를 입력하면 가장 근접한 결과 값만 찾게 돼 있습니다. 그러다 보니, 아예 틀린 단어를 디코딩 한다든지 오류가 발생할 확률이 높아집니다. 그렇지만 스팬션의 어쿠스틱 코프로세서(ACP)를 적용하면 대용량의 모델을 사용할 수 있습니다. 정확한 매칭이 가능하고 오류를 줄일 수 있으며, 지연을 크게 개선할 수 있습니다. 전체적으로 사용자 경험이 그만큼 개선되는 것입니다.
Q. 현재 자동차의 음성인식 성능은 그리 좋지 못한데.
A. 자동차 OEM과 서플라이어들은 사용자 경험이냐, 어쿠스틱 데이터베이스의 사이즈냐를 놓고 선택해야 합니다. 이미 대용량 어쿠스틱 데이터베이스가 존재합니다. 뉘앙스와 같은 회사는 갈수록 대용량의 어쿠스틱 데이터베이스를 개발하고 있습니다. 대용량의 데이터베이스가 있어야만 보다 더 견고한 사용자 경험을 뒷받침할 수 있습니다. 아울러 노이즈도 걸러 내고, 성별, 사투리도 인식해 줘야 탁월한 사용자 경험이 가능해집니다. 현재 자동차에 설치된 음성인식 내비게이션은 운전자의 음성을 제대로 인식하지 못하는 경우가 많습니다. 바로 타협이 이뤄지고 있기 때문입니다.
미래에는 대용량 데이터베이스 관련 내용들이 크게 개선될 것이고, 기술 자체도 훨씬 견고해질 것입니다. 데이터베이스가 대용량화 되고 견고해지면 음성인식은 좀 더 완벽해질 것입니다. 예를 들면, 독일어권 사람이 영어로 말해도 정확한 인식률을 보장할 것입니다. 또 한 사람이 여러 나라의 언어를 구사하는 경우를 상정해 다중언어 모델도 가능해질 것입니다. 어쿠스틱 데이터베이스가 더욱 커지게 되면, 당연히 프로세서 파워와 메모리를 더 많이 요구할 것입니다. ACP를 활용하면, 이런 문제를 개선할 수 있습니다. 단순히 사용자 경험을 개선하는데 머무는 것이 아니라 미래의 확장성까지 보장을 하는 것입니다.
Q. 시장 반응은 어떤가.
A. ACP를 통해 자동차는 보다 더 빠르고 정확한 음성인식 시스템을 구현할 수 있습니다. 현재 시장의 반응은 폭발적입니다. 일단 디자인 샘플만 보고도 성능에 굉장한 관심을 보이고 있습니다. 지금 당장 평가를 하고 싶다는 고객이 많습니다. 미국, 유럽, 아시아뿐만 아니라 한국에서도 엔지니어링 샘플을 기다리고 있는 상황입니다.
Q. 시리는 스팬션에 어떤 의미인가.
A. 애플의 시도는 전 세계에 긍정적인 영향을 미치고 있습니다. 개인적으로도 시리 폰을 이용하고 있는데, 물론 아직 모든 앱이 완벽하게 구동하지 않는 초기 단계인 것은 맞지만 굉장히 훌륭한 시도라고 생각합니다. 이런 시도가 자동차 영역에도 적용된다는 것은 저희에게도 희소식입니다.
현재 스팬션이 발표한 기술은 하드웨어가 중심입니다. 저희가 첫 번째 버전을 샌프란시스코에서 발표할 때, 뉘앙스의 톰슨 부회장은 향후 음성인식 솔루션이나 시스템이 대중화되려면 하드웨어 쪽의 획기적인 발전이 큰 도움이 될 것이라고 언급한 바 있습니다. 시리나 뉘앙스는 소프트웨어 솔루션이며, 이런 솔루션은 하나가 아니라 다수가 존재합니다. 스팬션의 ACP는 하드웨어에 초점을 맞추고 있고, 여기에 하나의 소프트웨어를 담게 됩니다. 이 때문에 우리는 시리, 뉘앙스와 같은 솔루션 기업들과 상호보완적인 관계라고 할 수 있습니다. 우리는 이미 뉘앙스와 협력하고 있고 애플과도 향후 협력 관계를 모색할 수 있을 것입니다. 음성인식이 온-보드, 오프-보드의 하이브리드로 가고 있기 때문입니다.
뉘앙스와는 상호 공유하고 있는 자동차 고객사들이 꽤 많습니다. 또한 스팬션은 HMI 기술을 단지 음성인식 쪽만 적용할 것이 아니라, 다양한 영역으로 확장해 나갈 계획입니다. 그러나 현재는 음성이 가장 강력한 인터페이스라고 보기 때문에 여기에 집중하고 있습니다.
<저작권자 © AEM. 무단전재 및 재배포, AI학습 이용 금지>