확 달라진 음성인식!

사용성, UX, 검색, 자연어 처리, 멀티모달 강화

2013-09-05 / 09월호 지면기사 / 글│한 상 민 기자 <han@autoelectronics.co.kr>

커넥티드 카에서 크게 각광 받을 것으로 예상됐던 음성인식 시스템은 그동안 소비자들의 호응을 얻지 못했다. 그러나 음성 인식률이 95% 이상이 되고 다양한 검색 기능 강화, 사용성 제고 및 UX 설계, 서비스 개선 등 첨단화가 이뤄지면서 터닝포인트를 맞고 있다. 지난 7월, 본지가 주최한 ‘2013 Automotive Innovation Day’에서 미디어젠이 국내외 음성인식 시스템의 주요 트렌드를 말했다.

두뇌 갖는 시스템

차량용 음성인식 시스템은 소비자는 물론 자동차 안전 관련 당국이 만족할만한 수준에 올랐을까? 세계 최대 자동차시장, 커넥티드 카의 시험장인 미국을 예로 들면, 기대했던 사용성과 안전성 측면에서 전반적으로 만족스럽지 못한 상황이다. 최근 레이 라후드(Ray Lahood) 교통부 장관은 “미국인은 음주운전과 같은 스마트폰을 아직도 운전 중에 내려놓지 못하고 있다”며 “폰을 내려놓고도 음성으로 문자를 보낼 수 있다는 음성인식 시스템도 우리가 생각하는 안전 기준을 충족하지 못하고 있고 다양한 연구에서도 이에 동의하고 있다”고 말했다. 미국의 교통부와 도로교통안전청(NHTSA)은 주행 중 스마트폰 사용 금지 등에 대한 OEM의 안전 캠페인 동참, 음성인식 등 커넥티드 기술 혁신을 독려 중이다.
그러나 음성인식 시스템에 대한 이같은 견해는 음성인식의 정확도, 명령을 실행으로 옮기는 과정의 불편함과 긴 시간 등 사용성 문제가 주원인이다. 특히 초기 음성인식 시스템에 대한 운전자들의 좋지 않은 경험은 지속적으로 시스템에 부정적 영향을 미치고 있다.
이론적으로 음성인식은 ‘핸즈프리’를 가능케 해 운전방해 요인을 제거하고 차량 안전성을 높일 최고의 인터페이스라는 데에는 이견이 없다. 게다가 음성인식 시스템의 정확도와 성능은 초기와 비교해 크게 향상돼 있고 혁신의 속도도 더욱 빨라졌다. 장착률도 배로 높아졌다.
현대ㆍ기아자동차의 국내외 음성기술 솔루션 첨단화의 일익을 담당하고 있는 미디어젠의 송민규 팀장은 “음성인식 시스템은 2~3년 전만 해도 20% 정도의 장착률을 보였지만 현재는 70%까지 높아졌다. 고급 사양의 오디오 내비게이션 시스템에서 상품가치를 높이는 옵션으로 채택되던 것이 이제는 필수사양이 되고 있다. 특히 북미시장에서 주행 중 폰 조작 금지, 유럽에서 모바일 기기의 윈드실드 부착 금지 등의 규제로 더욱 각광받고 있다”고 말했다.
음성인식 시스템은 성능 개선으로 그 인식이 바뀌고 있다. 몇 년 전만해도 차에서 음성 인식률이 95%가 나오지 않아 시스템을 적용하는 것조차 힘들었지만, 이제는 탁월한 인식률 확보가 가능해지면서 새로운 서비스를 고려하고 제공하는 단계에 왔다.
우선, 음성 엔진은 20개 언어가 동시 개발되며 호환성이 높아졌고, 인터넷 사용 등 커넥티비티의 강화로 검색 기능이 확대됐으며, 텔레비전, 스마트폰, 홈 네트워크 등 소비가전 기기와도 연결되면서 “해리포터를 찾아줘”와 같은 명령도 가능해졌다.
송 팀장은 “예를 들어 BMW, 아우디 등은 서버 기반 대화형 인식 시스템을 적용하기 시작하는 등 시스템의 기능을 단지 운송 수단에 대한 것이 아닌 엔터테인먼트, 업무, 감성에 대한 서비스 차원에서 다루고 있다”고 말했다.
특히, 정해진 명령어로만 특정 동작을 실행할 수 있었던 답답했던 시스템은 대화형 명령으로도 제어가 가능해졌다. 음성 검색은 폰에서 구글을 검색하는 수준에 이르렀다. 대화 처리가 되면서 “내비게이션을 틀어줘”라고 하면 시스템이 해당 명령을 수행할 뿐만 아니라, 예를 들어 “최근에 갔던 목적지가 어디인데 어디로 갈까요”라고 답하기도 한다.
송 팀장은 “음성인식 시스템은 기본적으로 PPT 버튼을 눌러 작동하는 웨이크업 방식이지만, 이제는 시스템이 스스로 깨어나 “주유량이 매우 적습니다. 주변 주유소를 안내할까요” 또는 “타이어 공기압이 낮은데 카센터를 찾을까요”라는 식으로 기술이 개발되고 있다”고 말했다.

명령어 정확치 않아도

음성인식 시스템의 사용 시작은 최초 명령을 위해 마이크를 여는 PPT 버튼을 누르면서 시작된다. 이 버튼은 스티어링 휠의 좌측이나 우측, 또는 양쪽 모두에 부착된다. 음성을 받아들이는 마이크는 차량의 루프에 부착되는데, 운전자에 가까워 인식률이 높은 선바이저 부근에 부착되는게 일반적이지만 최근에는 오버헤드 콘솔로 옮겨가는 추세다. 에어컨 소음 때문이다. 상식적으로 스티어링 휠에 마이크가 있으면 좋겠지만 이 경우엔 진동이 심하다.
PTT 버튼을 누르면 “명령어를 말씀해주세요”와 같은 안내 멘트가 나오고 부저가 울린다. 이후 명령어를 말하면 엔진이 음성을 듣고 텍스트로 변환해 시스템에 전달한다. 시스템의 핵심은 소프트웨어 형태로 헤드유닛 내 내비게이션이나 오디오에 장착된 CPU에 포팅되거나 칩 형태로 들어간다. 제어 기능은 내비게이션, 뮤직 제어 등 3,000여 가지다.
구조는 단순하지만 과정에서 성능을 높이는 것이 매우 힘들다. 음성인식 엔진은 입력되는 소리의 노이즈를 제거하고, 제거된 음성을 원래 가지고 있던 수많은 사람에게서 추출한 패턴 DB와 매칭시켜 어떤 말인지를 확인하고 텍스트를 준다. 스피치 플랫폼은 엔진 결과를 판단해 오디오 등에 전달하고, 그래머와 시나리오 정보를 준다. 이후 플랫폼의 명령을 받은 애플리케이션이 실제 하드웨어를 동작시킨다.
송 팀장은 “예를 들어 ‘재생’이란 텍스트가 나오면 CD, 아이팟 등 무엇을 재생해야 할지를 시스템이 알아서 판단해야만 한다. 이때 필요한 브레인이 모듈인데, 크게는 대화처리 엔진, 작게는 후처리 모듈”이라며 “대개 업계가 사용하는 엔진은 뉘앙스의 엔진이고 후처리 모듈이나 플랫폼을 미디어젠과 같은 회사들이 하고 있다”고 설명했다.
음성인식의 이슈 중 가장 큰 문제는 사용자의 실수에 있다. 예를 들어 부저 소리가 나기 전에 말하거나, 없는 명령어를 말하는 등의 문제다. OEM은 이같은 사용자의 실수에도 문제없이 기능을 신속히 실행시킬 수 있는 시스템을 만들기 위한 보정 작업에 많은 노력을 기울이고 있다.
송 팀장은 “명령어를 알고 말하면 시스템의 음성 인식률이 100%이지만 사용자는 대부분 명령어를 잘 모른다. 예를 들어 정확한 명령어가 ‘내비게이션’ 또는 ‘지도 보기’ 등이지만 “내비게이션 켜봐”, “내비”라는 식으로 말하고, 잘 안되기 때문에 이후부터 시스템을 쓰지 않는다”며, “때문에 OEM은 일상에서 쓰는 표현들을 수집해 이를 인식하도록 시스템에 반영해 단어 레벨에서 중요한 단어를 정해 인식이 되고 실행토록 한다”고 말했다.
보통 키워드는 엔진에서 높은 성능으로 추출한다. 이후 후처리 모듈을 더하고 다양한 대화 패턴을 수집해 “맵을 보고 싶어” 등 여러 가지 표현이 인식될 수 있도록 한다. 결과적으로 “목적지를 찾아”, “어디를 검색해”라고 문장 형식으로 말해도 인식할 수 있다.
음악 검색의 경우엔, 수 만곡 중 아티스트 또는 노래 제목으로 찾아야 하지만 이제는 ‘가왕’, ‘팝의 디바’와 같은 별칭 등 연관어로도 검색할 수 있다.
또 특정 국가에서 전화를 걸기 위해 “디에고 루이스”라고 말하면 인식이 안 되는 식의 문제도 해결되고 있다. 이 경우 ‘다이고 루이스’라고 해야 된다. 이유는 엔진 내부의 자동 발음변환 모듈이 ‘다이고’로 돼 있기 때문이다. 이 때 디에고를 다이고로 읽을 수 있도록 후처리하는 모듈을 넣어 바로 잡는다.
이처럼 성능을 높이기 위해서는 지역마다 다른 발음에 대한 조치가 필요하다. ‘미션 임파서블’의 주인공 ‘에단 호크’가 지역에 따라 이단, 이슨, 이싼 등 다양하게 불리고, 이를 모두 인식하도록 하기 위해서는 다양한 사용자 조사와 후처리가 필요하다.
송 팀장은 “사용자 평가와 UX 설계도 중요하다. 미국에서 음성인식 기능에 대한 사용자 평가를 실시했는데 특정 기능과 인터페이스에 대해 사용자가 매우 불편해했다. 이같은 선호도를 추적해 사양, 기능, 기술을 개발해 반영할 수 있다”고 말했다.
예를 들어 캐딜락 CUE와 애플 시리를 비교했을때 대체적으로 시리에 대한 만족도가 높게 나왔다. CUE의 경우 주소 검색 면에서 불만이 많았고 전반적으로 사용자의 좋고, 싫음의 폭이 컸다.

한 방에 주소 검색

미디어젠은 올 3월 미국의 주요 OEM의 몇몇 2013년 모델의 음성인식 시스템을 비교 분석했다. 그 결과 대화형 음성인식 시스템을 적용한 OEM은 캐딜락, 닷지, 토요타, BMW 등으로 나타났다. 이들 시스템은 “음...”과 같은 감탄사에도 에러가 나지 않고 대화형 명령도 인식했다.
음성인식 시스템에서 목적지 검색은 꽤 복잡한 태스크 중 하나다. 현재 국내에서 일부 애프터마켓 제품이 “코엑스”라고 말해도 바로 주소를 찾지만, OEM 시스템 경우엔 이런 기능이 없다. 그러나 OEM이 원하는 품질 수준이 나오면서 국내의 다음 모델부터는 이같은 검색 단계를 밟지 않는 주소 검색이 가능한 시스템이 나올 전망이다. 북미에서도 ‘원샷’ 커멘드가 이슈로 이미 적용되기 시작했다.
“목적지 검색”이라고 말하면 시스템은 “시나 도를 말씀하세요”라고 말한다. 그리고 나서 예를 들어 “경기도, 안양시, 동안구, 호계동”이라고 순서대로 말하고 나서 마지막 번지는 손으로 찍는 식이다. 이런 경우 시스템의 음성 인식률은 95% 이상이지만 태스크 컴플리션율이 크게 떨어지고 수행시간도 3~5분이나 걸린다. 북미에서도 주소 검색은 단계적으로 프롬프트를 들어 말해야 하는 스텝 바이 스텝이 대세지만, 이보다 업그레이드된 버전은 차의 GPS로부터 주 정보를 받아 “find address”라고 말한 후 인터페이스에서 번지와 거리, 시티를 한 번에 말하면 된다. 또 destination이나 find address라는 특정 키워드와 함께 주소를 한 번에 쭉 말하는 버전도 상용화됐다. 이같은 원샷 커멘드는 닷지 램, 토요타 캠리 등에 적용됐다.
송 팀장은 “북미의 주소가 수백만 건이라도 이제는 ‘find address’라고 명령어를 말한 다음 예를 들어 ‘925 Victors Way Ann Arbor Michigan’과 같은 주소를 한 번에 말하면 된다. 태스크 타임도 10초 정도”라며 “정확도의 성능이 좀 떨어질 수 있지만, 이때 결과를 보여주고 도시, 주, 거리 등 필요한 부분을 잘라 고칠 수 있도록 보완한다”고 말했다.
전화를 걸기 위한 이름 검색의 경우, 대부분이 성과 이름을 바꿔 말해도 인식할 수 있도록 돼 있다. 또 이름이나 성만으로도 검색이 가능하다. 음악 검색의 경우, 장르, 타이틀, 아티스트, 앨범 모두를 인식한다. “play 마이클 잭슨”이라고 하면 미디어 내에 마이클 잭슨이라고 태깅된 모든 콘텐츠를 끌어온다. 그레이스노트 등이 제공하는 모듈을 통해 다양한 데이터 인식이 가능해졌다.
그동안 거의 모든 시스템에서 터치와 음성이 동시에 진행되지 않았었다. 음성으로 말하고 나면 리스트에서 골라 누르거나 타자를 입력하는 식이었지만 최근에는 동시에 모든 것이 되는 멀티모달 방식으로 바뀌고 있다.

구글과 애플

송 팀장은 “아우디의 구글로컬서치는 인카 음성인식 시장에 큰 반향을 일으키고 있다. 음성인식 엔진이 단말에서 서버로 올라가면서 막대한 양의 데이터를 통해 성능을 크게 올려놓고 있다”며 “특히 구글은 성능이 좋고 지도와 부가정보도 연동된다”고 말했다.
애플 시리는 대화처리 모듈이면서 인공지능적 부분이 많이 가미된 시스템이다. 운전자가 “피곤해”라고 말하면 종전의 음성인식 시스템은 오인식하거나, 이를 시스템에 반영했을 경우 창문을 여는 식으로 동작했지만 이제는 그 이상의 반응을 보인다.
송 팀장은 “예를 들어 이전의 시리에게 ‘다리에서 뛰어 내릴거야’라고 말하면 다리를 검색해 알려줬지만 이제는 자살방지센터를 연결한다. 현재 거의 대부분 OEM이 이같은 시리를 연결해 쓰는 방안을 모색 중”이라고 설명했다. 뉘앙스의 드래곤 드라이브는 드래곤 고, 드래곤 딕테이션 솔루션을 결합해 차량용으로 만들고, SMS 전송 기능을 제공한다. 드래곤 드라이브는 BMW 7시리즈에 적용됐다. 예를 들어 “상무님 콤마 회의가 늦게 끝나 늦을 것 같습니다 스마일 이모티콘”이라고 말하면 그대로 폰에 문자가 찍혀 전송된다.
송 팀장은 “현재 음성인식 시스템은 검색을 잘하기 위한 기능, UI의 강화가 필요하고, 사용성과 접근성을 높이기 위한 자연어 처리 기술, UX 설계와 검증이 요구된다. 단말뿐만 아니라 데이터를 많이 쓸 수 있는 서버의 활용이 중요하다. 특히 국내에서는 음성인식을 잘 활용하기 위한 설계, 현재 시스템에서의 사용자 불편을 줄이기 위한 UX 분석과 조치가 필요하다”고 말했다. 국내 차량의 음성인식 수준은 특히, 현대겚蓚팀湄온耽?글로벌 경쟁의 핵심요소로 음성인식을 집중 육성하면서 세계의 OEM과 어깨를 나란히 하고 있다. 언제든지 단기간에 격차를 따라잡을 수 있는 구조와 기반을 구축하고 있다. 수출용 양산차의 내비게이션 안에는 이미 16개 언어를 지원하고 있고 20개 언어 지원도 가능하다.
송 팀장은 “기존에는 언어 하나를 개발하기 위해 명령어, 시나리오를 모두 개발하고 일일이 포팅함에 따라 시간과 비용이 많이 들었다”며 “특정 사가 엔진을 개발할 때 시나리오까지 개발하기 때문에 하나의 코드 안에 엔진, 시나리오 등 모든 것이 들어가 있지만 현재는 엔진, 플랫폼, 애플리케이션 연동을 따로 떼 모듈화함으로써 개발, 디버깅 등을 별도로 하며 효율성을 확보하고 있다”고 말했다.
호환성 측면에서도 안드로이드, QNX 등 OS를 모두 지원하고, 여기에 바로 시리, 구글 등을 통합시킬 수 있도록 했다. 송 팀장은 “다국어 명령어, 예를 들어 지역, 국가에 따라 프롬프트 방식, 명령어가 각기 다르지만 모든 현지화가 국내에서 이뤄지고 있다”고 말했다. AE

AEM(오토모티브일렉트로닉스매거진)

Component & Materials
The Core Driver Accelerating the SDV Era: KD Sets the Standard for Next-Generation Autonomous Driving and Infotainment with Automotive Optical Multi-giga Technology
2026년 07월호 지면기사
SDV 시대를 앞당기는 핵심 동력: KD, 차량용 ‘Optical Multi-giga Technology’로 차세대 자율주행 및 인포테인먼트 표준 제시
2026년 07월호 지면기사
Will Cars Become Data Centers?
2026년 07월호 지면기사
SDV 시대, 구리가 넘지 못하는 속도와 거리의 벽
2026년 07월호 지면기사
Whose Experience Is It Anyway?
2026년 07월호 지면기사

과월호 e-Book 보기