자동차의 네트워크화, 클라우드 기반 음성기술, 서비스의 발전으로 차량용 음성인식은 인식률을 높이는 것에서 얼마나 개인에 특화된 유용한 서비스를 제공하느냐는 고민으로 전개되고 있다. 미래의 차에 우리와 동승하게 될 감성을 지닌 똑똑한 음성 비서가 다가오고 있다.
「데이빗이 키팝 버튼을 누르면서 “사만사 나야”라고 부르자 차가 라이트를 번뜩이며 활성화되고 데이빗의 음성을 체크한 후 그의 세팅 값을 찾아 클러스터 스타일, 시트 포지션 등을 조정하면서 도어를 열어준다. 이 가상 비서 사만사는 그녀가 호출된 시간을 체크한 후 “좋은 아침! 데이빗, 회사로 가실거죠?”라고 묻고는 데이빗의 답에 따라 내비게이션 목적지를 설정한다. 사만사는 운행 중 대시보드 내 카메라 등 각종 센서를 통해 차량의 속도, 가감속 등 차량 데이터, 데이빗의 눈빛, 얼굴 표정, 신체 리듬 등을 체크하면서 조심스럽게 “이머젠 힙(Imogen Heap)의 ‘아이 메가폰(iMegaphone)’을 들으면 어때요?”라고 의향을 묻는다.
잠시 후엔 “2분 후 던킨도넛을 지나는데 커피와 달콤한 도넛 괜찮아요? 기분이 좀 나아질거에요”라고 말하며 주문 창을 띄운다.」
음성인식의 시작
올해 16살을 맞는 혼다의 휴머노이드 ‘아시모(Asimo). 아시모를 대신해 로봇의 아이콘으로 떠오른 소프트뱅크의 로봇 ’페퍼(Pepper). 애플 ‘시리(SiRi)’, 아마존의 ‘알렉사(Alexa)’, 마이크로소프트의 ‘코르타나(Cortana)’.그리고 토요타와 재규어의 안면인식 혹은 뇌파연구, BMW의 클라우드 기반 음성인식 서비스.자동차 관점에서 이 모든 것은 미래의 차에 우리와 동승하게 될 감성을 지닌 똑똑한 음성 비서(Virtual Voice Assistant)에 대한 나열이다.
최근 혼다는 소프트뱅크 그룹 산하 코코로(cocoro SB)가 개발한 AI 기술 ‘감정 엔진’을 혼다의 자동차에 적용하는 공동연구를 위해 소프트뱅크와 제휴했다. 연구는 운전자와의 대화, 차 내 카메라 등 각종 센서 정보를 활용해, 차가 운전자의 감정을 추정하고 감정, 감성을 갖고 대화하면서 다양한 경험을 함께 공유하는 일종의 파트너가 되는 것을 목표한다.
최근 IT 기기들은 매우 빠르게 스마트해지면서 다양한 정보를 쉽고 편리하게 수신하고 활용할 수 있게 됐다. 또 이 활용은 유용한 정보를 일방적으로 수신하는 것이 아니라 음성인식과 같은 기술을 통해 사용자가 원하는 정보를 직접 질의해 찾을 수 있고, 이 질의에 대한 답은 커넥티드 기술, 머신러닝과 AI와 같은 다양한 기술을 통해 더욱 다양한 정보, 사람과 대화하는 것 같은 느낌의 제공에 가까워지고 있다.
프로스트앤설리번(Frost & Sullivan)의 관계자는 “사람들은 수신 정보의 내용뿐만 아니라 음성 시스템이 얼마나 자신과 비슷한 지를 확인하고 싶어하며, 자동차 회사들은 이를 편의성, 개인화, 맞춤 서비스의 미래 브랜드 차별화의 핵심으로 보기 시작했다”며 “모바일, IT, 자동차 모두가 음성인식과 함께 인포테인먼트가 미래의 중심이 될 것으로 보고 있다”고 말했다.
프로스트앤설리번에 따르면, 지난해 차량용 음성인식 시장에는 몇 가지 굵직한 트렌드가 나타났다. 첫째, 카 메이커와 티어1 서플라이어들이 바이오
트릭스와 머신러닝기술 분야에 대대적인 투자를 시작했고 음성인식 기술은 여전히 인포테인먼트 측면에 포커스하고 있다. 둘째, 티어1 서플라이어들은 그들이 직접 소유한 자체기술 없이 기술 통합자로서의 역할을 수행 중이다. 때문에 이들은, 예를 들어 뉘앙스와 파트너십을 맺은 히어(HERE), 일본의 애프터마켓 스타트업 이나고(iNAGO)와 손잡은 헝가리의 내비게이션 업체 NNG처럼 갈수록 더 많은 파트너십, 조인트벤처와 관련되고 있다. 셋째, 프리미엄 OEM은 브랜드 차별화 전략 차원에서 더욱 높은 편의성을 제공하기 위해 시리(SiRi), 코르타나(Cortana), 말루바(Maluuba), 구글 나우(Now) 알렉사(Alexa) 등 음성 비서 기술에 높은 관심을 보였다.
미디어젠의 송민규 본부장은 “카 메이커나 티어1이 IT기업과 제휴하는 것은 인포테인먼트 시장이 커지면서 운전자가 필요로하는 정보를 선별하고 운전자에 특화된 서비스를 제공해야만 경쟁력을 높일 수 있기 때문”이라며 “단순하게 네이버, 다음, 빙과 같은 포털에서 정보를 찾아보는 것은 스마트폰에서도 할 수 있는 것”이라고 말했다.
예를 들어 목적지를 검색할 때 좀 더 사용자의 의도에 맞춰진 정보, 차량 정보와 관련해 주행 속도가 빠를 때의 특정 라디오 선국, 또는 장르 추천 등 사용자의 행동 양식에 따라 특화된 서비스를 제공하는 것이 중요해지고 있다. 이런 차량 내부 정보는 IT업체에 없고, 카 메이커들은 클라우드 인프라, 외부 연계 인포테인먼트 서비스 등 모든 것을 스스로 할 수 없기 때문에 제휴가 확대되고 있다.
개인화 서비스 제공
넷째, 뉘앙스가 음성인식 기술 시장을 이끌고 있지만 이나고, 센서리(Sensory)와 같은 새로운 기술 기업들이 시장에 등장했다. 다섯째, OEM은 시리, 안드로이드 오토를 포함한 클라우드 기반 솔루션을 대부분 적용했고, 클라우드와 임베디드의 하이브리드 솔루션을 적용하려 하고 있다. 클라우드 솔루션 도입에 요구되는 인프라, 보안문제가 독립적인 임베디드 솔루션의 가치를 유지시키고 있다.
자동차의 음성 서비스는 운전자가 명령하면 작동하는 원웨이 방식이다. 또한 이것은 단말기 내부에서 동작되는 한정된 정보에 대한 것이다. 그런데 텔레매틱스 서비스와 서버 기술이 가능해지면서 가변 정보의 이용이 차 내에서도 가능해졌다.
송 본부장은 “아직은 스마트폰처럼 정보가 바깥의 서버에 있고 이것을 박스 안에 넣어주는 방식으로, BMW와 같은 회사들이 이런 클라우드 기반 서비스를 상용화했다”며 “단말기는 내부에 클라이언트만 있어 음성만 주고받고 UI 표시 등 간단한 기능만 한다”고 설명했다.
서버는 하나, 그 이상일 수 있다. 카 플레이, 안드로이드 오토의 음성인식이 이같이 다수의 서버를 통해 빠르게 연산하고 다양한 콘텐츠를 제공하는 클라우드 시스템 기반이다. 전반적으로 클라우드 기반의 음성 인식률이 높고 서비스도 잘 되기 때문에 클라우드 기반이 대세가 되고 있지만, 기본적인 단어 명령어에 대한 인식률, 특히 네트워크 인프라의 유무에 따른 서비스 제약 문제로 임베디드와 클라우드 방식이 통합된 하이브리드 방식이 추구되고 있다. 임베디드 시스템은 “내비게이션 열어줘”와 같은 대화형 처리의 인식이 잘 안 되는 문제가 있었지만, 대화처리 모듈의 개발을 통해 네트워크 서버 없이도 발언 패턴 인식, 사용성 개선에서 획기적인 진보를 이루고 있다.
즉 기계와 사람 간 인터페이스는 자연어 처리 기반의 대화 시스템 방식으로 개발되고 있고, 커넥티드 카 트렌드, 텔레매틱스 서비스에 따라 외부의 실시간 가변 정보를 운전자에게 얼마나 효과적으로 전달할 것인가, 운전자에 특화된, 개인화된 서비스 개발, 제공이 목표가 되고 있다. 이를 위해 특정 카 메이커가 음성인식을 통한 엔터테인먼트 기능을 강화하고 싶다면 이와 관련된 콘텐츠 기업과 파트너십을 맺고, 위치기반정보에 포커스를 둔다면 해당 분야에서 리더십을 지닌 업체와 협력하는 것이다.
바이오메트릭스
향후 자동차 음성인식 시장을 세분화하면 ▶보안, 인증, 개인화와 같은 유즈케이스에 이용되는 음성 바이오메트릭스 ▶스마트폰을 통한 음성인식 ▶음성인식 엔진의 복잡화와 더 큰 메모리 요구에 따른 클라우드 기반 음성인식 솔루션 ▶음성인식과 웨어러블 기기를 통한 개인화 및 인카 기능 제어 ▶맥락과 뉘앙스를 포함하는 사람의 대화를 흉내내는 가상 비서 ▶하만의 할로소닉(HALOsonic)과 같은 도로 및 엔진 노이즈 제거 기술 ▶입술 모양을 읽는 등의 음성향상을 위한 시각분석 기술 등이 있다.
사용자의 음성을 인식해 누군가를 구별할 수 있는 음성 바이오메트릭스는 일종의 인포테인먼트 서비스, 차량 개인화의 시작점으로 프로스트앤설리번은 자동차음성 바이오메트릭스가 2018년부터 양산차에 적용될 것으로 보고 있다. 안전성, 오너십 전환 등에 대한 과제와 함께 이 시장은 2021년에 약 1,000억 달러 시장이 될 전망이다.
송 본부장은 “보안 측면도 중요하지만 음성 바이오메트릭스는 목소리 분석을 통해 그 사람에 맞도록 세팅된 개인화 서비스를 위한 시작”이라며 “음성인식은 이제 시작으로, 이전에는 인식률이 잘 나오지 않아 사용성이 떨어졌지만 인식률이 높아지고 풍부하고 유용한 정보를 활용할 수 있게 되면서 사용자에게 맞는 서비스가 중요해졌고, 음성인식, 음성공학 분야의 기술 발전 속도도 급속히 가속되고 있다”고 말했다.
음성인식 애플리케이션은 인포테인먼트에서의 유즈케이스와 같은 전형적인 애플리케이션에서 보다 다양한 인카 시스템의 조작, 사용 매뉴얼로 확대되고 있다.
여기에는 자율주행 트렌드도 한몫하고 있다. 그동안 주로 음악, 전화 다이얼링, 공조시스템 제어, 내비게이션 주소 입력 등에 사용된 음성인식은 스마트폰 기반 음성 지원, HVAC, POI 검색, 웨어러블을 통한 음성인식, 하이브리드 솔루션 단계를 거쳐 음성 바이오메트릭스, 첨단 머신러닝 기술 도입, 클라우드 기반 솔루션을 통해 배터리 잔량이나 주행가능 거리 등 전기차, 차량진단 등 다양한 유지보수 애플리케이션, 그 이상의 라이프스타일 앱을 포함하게 될 전망이다. 시리, 코리타나, S보이스, 구글 나오, 말루바 등 스마트폰 음성 비서는 아직 부족함은 있지만 스마트폰을 시작으로 차에서도 통용되고 있고, 웨어러블 기기를 이용한 음성인식은 볼보와 마이크로소프트 등을 통해 전개되고 있다.
저무는 엔진
뉘앙스와 이나고와 같은 기업이 제공하는 가상 비서 기술, 보이스박스, 뉘앙스, 센서리, 이나고 등의 머신러닝 기술은 2020년경 도입될 전망이다. 이와 함께 북미에서는 음성인식 기능 강화를 위한 입술을 읽는 것과 같은 모니터링 기술이 2018년까지 자동차에 적용될 전망이다.
송 본부장은 “음성인식에서 머신러닝 기법은 보편화돼 있다. 여기에는 통계 기반, 뉴로 네트워크 등 다양한 방식이 있는데, 사람의 인지과정을 묘사한 뉴로네트워크 방식의 실질적 효율성이 높아지고, 방법론들이 공개되면서 기술이 빠르게 발전하고 있다”며 “음성인식은 머신러닝이 완전히 일치되는 분야로, 사람의 음성, 언어 데이터를 잘 정제하고 양을 늘려 자동으로 트레이닝을 시키면 음성인식 엔진의 성능이 크게 높아진다”고 설명했다.
구글 엔진이 대표적이며, 음성엔진, 솔루션을 하는 업체들 모두가 머신러닝을 하고 있다. 즉 값 비싼 엔진 기술 대신 엔진성능을 높이는 코어 기술이 발전, 공개되면서 엔진의 결과를 효과적으로 활용하는 서비스 측면의 가치가 높아지고 있다.
현재 임베디드 음성인식 시장의 강자 뉘앙스는 구글에 밀리는 클라우드 부문 강화, 하이브리드 솔루션 제공에 포커스하면서 2020년까지 개인 비서 기술 제공을 추진하고 있다. 자동차, 스마트폰, 웨어러블 산업에서 두각을 나타내고 있는 보이스박스도 하이브리드 솔루션 제공에 집중하면서 EB솔루션을 위한 자연어 맥락 이해 기술 제공을 위해 일렉트로비트와 협력하고 있다.
애프터마켓 내비게이션의 개인 비서 기술 업체 이나고는 인포테인먼트에 대한 클라우드 기반 솔루션과 개인 비서 기술에 집중하고 있다. 아직 자동차 고객이 없는 스타트업 말루바는 스마트폰 플랫폼에 대한 개인 비서 시스템을 제공하고 있다.
우리나라의 미디어젠은 현대자동차와 임베디드, 클라우드 기반 자연어 처리 기반 대화 시스템 모듈을 적용하고 지속적으로 혁신해 나가고 있다.
임베디드 음성인식, 카플레이나 안드로이드 오토를 통한 스마트폰 음성인식 기능을 지원하고 있는 대부분의 카 메이커들은 음성인식 기술, 서비스의 고도화, 모바일 기기 사용 등에 대한 운전부주의 예방을 위한 운전자 모니터링 기술개발에도 적극 나서고 있다. 음성 바이오메트릭스, 안면인식, 아이 트래킹, 동작 감지 등 다양한 기술 R&D가 이에 포함된다. BMW, 푸조 등이 2017년까지 음성 바이오메트릭스를 도입할 전망이며 재규어랜드로버는 안면인식, 뇌파 연구도 진행 중이다.
송 본부장은 “카 메이커의 내비게이션, 인포테인먼트 시스템은 크게 발전할 것”이라며 “예를 들어 ‘배고프다’라는 말을 가지고 레스토랑에 대한 개인화된 친절한 안내를 할 수 있는 플랫폼을 만들고 서비스를 제공하는 것이 중요한데, 바로 알렉사, 시리와 같은 지능형 모듈, 미디어젠의 티마와 같은 플랫폼이 이를 가능케 할 것”이라고 말했다.
<저작권자 © AEM. 무단전재 및 재배포, AI학습 이용 금지>