Bosch’s AI Declaration: A Future Beginning with Level 2++
보쉬의 AI 선언, 레벨 2++에서 시작된 미래
2025년 11월호 지면기사  /  한상민 기자_han@autoelectronics.co.kr



상하이, 뮌헨, 그리고 비엔나. 잇따른 글로벌 무대의 화두는 자율주행과 AI.
9월 17일부터 18일까지 양일간 비엔나 호프부르크 왕궁에서 열린 The Autonomous 무대에서 보쉬 CTO 마티아스 필린은 “보쉬는 이제 AI 회사”라고 선언했다. 그의 강연이 중요했던 이유는 보쉬가 실질적인 안전을 전제로 자율주행을 가능케 할 리딩 기술 플레이어 중 하나라는 점 때문이다. 보쉬는 이미 중국과 유럽에서 레벨 2++ 시스템을 양산 단계에 올려놓았고, 이를 레벨 3 너머로 확장하려 움직이고 있다. 그는 자율주행의 핵심 난제를 풀기 위한 수학적 접근을 내년 초 논문으로 발표할 계획이라며 학계와 산업계의 반응을 기대한다고 덧붙였다.
동시에 필린 CTO는 AI만으로는 완전 자율주행은 이뤄질 수 없음을 강조하며 산업 전반의 협력이 진정한 돌파구임을 역설했다. 중국과 유럽에서의 End to End 시스템 여정과 미들웨어 기반 SDV 전략이 전통 위에 세운 보쉬의 미래 비전처럼 울려 퍼졌다.


글 | 한상민 기자_han@autoelectronics.co.kr

IN ENGLISH

비전 센서만으로 자율주행 절대! 결코! 실현되지 않는다!
안전을 설계하다: E2E 아키텍처와 자율주행의 미래
The Autonomous, 안전 아키텍처 로드맵 2판 공개




9월, 비엔나 호프부르크 왕궁에서 열린 'The Autonomous'. 
키노트 무대에 오르기 전 잠깐 마주한 자리에서 보쉬의 마티아스 필린(Matthias Pillin) CTO는 뮌헨 IAA와 상하이 오토쇼에서 공개된 BMW, 메르세데스-벤츠, 폭스바겐, 중국 OEM의 모델들을 언급하면서 다양한 보쉬 기술들을 자랑했다. 파노라믹 비전과 같은 아이콘도 있지만, 가장 스포트라이트를 받고 있는 것은 자율주행/운전자 지원 시스템과 AI 역량이었다. 
필린 CTO가 The Autonomous에서 ‘AI’를 중심으로 그들의 자율주행 이야기를 들려줬다.


 



 
AI 기업 선언
 
“자율주행을 위해서는 여전히 많은 과제를 다루고 극복해야 합니다. 하지만 단순히 ‘이게 문제다’라고 지적하는 데 그치지 않고, 보쉬의 관점에서 어떻게 해결할 수 있을지를 말씀드리겠습니다.” 필린 CTO는 이렇게 운을 뗐다.

보쉬가 처음으로 AI를 탑재한 제품을 출하한 것은 15~20년 전, 스마트 카메라였다. 당시에는 ‘머신러닝(machine learning)’이나 ‘컴퓨터 비전(computer vision)’이란 용어가 주로 쓰였다. 하지만 전환점은 전 CEO 폴크마르 데너(Volkmar Denner)가 2015년 보쉬 인공지능 센터(Bosch Center for Artificial Intelligence)를 설립한 때였다. 이후 보쉬는 AI 역량을 빠르게 확충했고, 세계 곳곳의 대학과 파트너십을 맺으며 교수들을 후원했다. 지금은 트랜스포머(Transformers), 대규모 언어 모델(Large Language Model, LLM) 같은 최신 기술들을 다루고 있다.
또 다른 중요한 결정은 2020년에 있었다. 보쉬는 스마트 카메라 시스템에서 머신러닝·컴퓨터 비전을 과감히 버리고 딥러닝으로 전환했다. 과거에는 늘 ‘2등’에 머물렀지만, 이 전환 이후 선보인 3세대·4세대 카메라로 시장 선두에 올라섰다. 성능은 훨씬 뛰어나고 비용 효율성도 높아졌다.
필린 CTO는 이렇게 말했다.

“우리는 이제 스스로를 AI 회사라고 부릅니다. 2021년까지만 해도 CVPR, NeurIPS, ICLR 같은 세계적 AI 학회에 800편 이상의 논문을 발표했습니다. 팀원들은 우리가 세계 무대에 논문을 내고, 수상하며, AI를 보쉬의 DNA로 새겨 넣고 있다는 점을 보여주고 싶어 합니다.”




중국에서 유럽으로

그렇다면 보쉬의 AI 제품은 현재 어디쯤 와 있을까? 답은 중국과 유럽에서의 활동에서 찾을 수 있다.
3년전, 보쉬는 AI가 본격적으로 시장에 진입하던 시점에 한 고객으로부터 프로젝트를 수주했다. 단 18개월 내에 양산을 시작해야 하는 도전적인 과제였다. 보쉬는 서둘러 파트너를 찾고 통합 역량을 차량에 적용했다.

“결과적으로 중국에서 첫 양산 개시(Start of Production, SOP)가 2024년 초에 이뤄졌습니다. ‘2 Stage End-to-End(E2E)’ AI 시스템이었지요. 지금은 중국 내 여러 플랫폼으로 확대 적용됐고, 올 9월에는 1 Stage E2E 모델을 출시합니다. 이 기술로 보쉬가 중국 내 상위 3위에 들었다는 점을 자랑스럽게 말씀드립니다.”
필린 CTO의 말이다.

지난 5월, 보쉬는 중국에서 개발한 1 Stage E2E 시스템의 프로토타입을 독일로 가져왔다. 그리고 몇백 시간의 학습을 거쳐 IAA 모터쇼에서 공개했다. 거의 모든 OEM의 주요 인사들이 참관했고, 그들은 주행 동작과 복잡한 상황 처리 능력에 감탄했다. 주행 특성은 여전히 ‘중국식’ 스타일이 남아 있어 독일 운전자보다 공격적이고 간혹 예기치 못한 동작을 보여주기도 했지만, 성능 자체는 탁월했다는 평가였다.
여기서 더 중요한 점은 과거 같으면 지역 간 AI 시스템 이전에 수년과 수십억 달러가 들었을 일이, 이번에는 단지 몇백 시간의 훈련으로 가능했다는 것이다. 보쉬는 이 경험을 유럽으로 곧바로 이어갔다. 폭스바겐 그룹의 CARIAD와 ‘자율주행 얼라이언스(Automated Driving Alliance)’를 통해 개발 속도를 높이고 있는 것이다.

“우리가 폭스바겐에 적용하는 기술 패키지는 동일합니다. 이미 차량에 탑재됐고, 데이터 수집을 위한 플릿(Fleet)도 확대하고 있습니다. 세계에서 가장 큰 OEM 중 한 곳과 데이터를 모으고 기술을 검증하는 것은 큰 의미가 있습니다. 내년 중반까지 SOP 적용 준비가 가능하다고 자신합니다.”

보쉬가 중국과 유럽에서 전혀 다른 SoC(System-on-Chip) 기반 개발을 동시에 진행할 수 있었던 비결은 소프트웨어 정의 접근법에 있다. 한쪽은 NVIDIA, 다른 쪽은 Qualcomm을 선택해 팀은 혼란스러웠지만, 결국 이를 자산으로 바꿔냈다. AI 가속기와 고성능 메모리를 추출·활용하는 방법을 배웠고, 지금은 NVIDIA, Qualcomm, Horizon Robotics, Ambarella 등 다양한 플랫폼에 소프트웨어를 배포할 수 있게 됐다.

“이 모든 것을 빠르게 실현할 수 있었던 핵심은 뛰어난 소프트웨어 정의 인터페이스, 즉 미들웨어에 있습니다. 이 미들웨어는 시장에서 구매할 수 있는 제품이며, 이를 통해 우리는 전 세계 규모로 역량을 확장할 수 있습니다.”






end to end + VLM

보쉬의 자율주행/ADAS의 실질적 기술은 무엇인가? 
지난 15~20년 동안의 운전자 지원 시스템 아키텍처는 센싱 뒤 인식 모듈이 시작되고, 센서 정보를 융합한 다음 그 결과를 바탕으로 주행 전략(planning)을 세우는 규칙 기반(rule-based) 시스템이었다. 이런 규칙 기반 시스템은 성능이 그리 좋지 않다. 하지만 지금의 시스템은 AI, ‘end-to-end’ 학습이 핵심에 있다. 

“end-to-end 학습은 지금 업계와 학계 모두에서 큰 논쟁거리입니다. 어떤 사람은 완전히 모놀리식(monolithic) 1단계 구조로 가야 한다고 말합니다. 하지만 자동차 맥락에서는 반드시 구조화된 아키텍처가 필요하다고 굳게 믿습니다.”

보쉬 시스템에는 여전히 인식, 융합, 주행 전략이란 세 블록은 있지만, 이 모듈들을 훈련하는 방식에서 성능 차이를 만든다. 모듈을 각각 따로 또는 루프 안에서 순환적으로 훈련할 수도 있고, 완전히 end-to-end로 훈련할 수도 있다. 또 이 과정에서 모듈 간 인터페이스가 함께 적응한다. 모듈들을 훈련하면서 인터페이스도 동시에 조정된다. 즉, 보쉬가 제안하는 기술은 end-to-end 학습 기반이지만 구조를 가진 하이브리드 형태다. 

“왜냐하면 결국 구조가 결정적이기 때문입니다. 실제 도로에서 문제가 생겼을 때, 그 문제를 추적·검증하고 안전하게 형식 승인을 받으려면 반드시 구조가 필요하기 때문입니다. 이 기술은 이미 도로에서 사용되고 있고, 우리는 거기서 경험을 쌓고 있습니다.” 필린 CTO가 말했다.

보쉬는 다음 단계로 end-to-end 스택 안에 생성형 AI를 결합한다. 구체적으로 스택의 중간 계층에 VLM(Vision Language Model or Vision Language Architecture)을 넣는다. 이 모델이 중요한 것은 의미적 정보(semantic information)를 생성할 수 있다는 것이다. 예를 들면, 고속도로 주행 중 전방에 트레일러를 끌고 있는 차량이 있다면 일반적인 인식 시스템은 이 특수 상황을 탐지하는 데 어려움을 겪는다. 하지만, VLM은 의미적 정보를 추론할 수 있다. 
그 다음 단계는 end-to-end 모듈과 VLM의 결합이다. VLM은 일종의 세계 지식(world knowledge)을 제공한다. 


 
AI 모델의 한계

VLM이 모든 문제를 해결하지는 않는다. end-to-end 아키텍처와 VLM 사이의 상호작용은 아직 풀리지 않은 문제이고, 이는 보쉬도 잘 알고 있다. 그럼에도 보쉬는 내년에 이 기술을 실제 도로 위에 구현할 계획을 갖고 있다.

“사람들은 이것을 ‘환각(hallucination)’이라고 부르기도 합니다. 생성형 AI 모델에는 본질적으로 스케일링의 한계(limits of scaling), 발현(emergence), 정렬(alignment) 문제란 세 가지 측면의 한계가 있습니다.” 필린 CTO가 AI의 한계를 지적했다. 

스케일링의 한계. 지도학습(supervised learning)을 하면 알고리즘을 제대로 훈련시키기 위해 사실상 무한한 양의 데이터가 필요하다. 강화학습(reinforcement learning)도 모델이 제대로 작동하는지 보장하기 위해 무한한 검증 케이스가 필요하다. 결국 무한의 노력이 필요하고, 이는 생성형 AI 모델을 사용해도 문제가 된다. 이 모델들은 이산적 토큰(discrete tokens)을 기반으로 작동하지만, 우리의 세계는 이산적이지 않고 연속적(continuous)이다. 이 때문에 생성형 AI 모델에 개념적으로 풀기 어려운 문제가 존재한다.
두 번째는 발현이다. 예를 들어, 모델은 다른 차량의 행동을 예측하기 위해 특정 차량의 특징에 집중하는 것이 유리하다고 판단할 수 있고, 그렇기 때문에 주의를 분산시키는 대신 어텐션 헤드(attention heads)를 특정 특징에 집중시킬 수 있다. 즉, 긍정적이고 안전한 방향의 AI 구조가 스스로 발현할 수 있다. 반대로 부정적인 어텐션 헤드가 생겨나 모델이 기괴한 행동을 할 가능성도 배제할 수 없다. 이런 성질이 모델 안에 본질적으로 있다.
정렬 문제도 있다. 일반적으로 모델을 원하는 방향으로 작동시키기 위해 프롬프트를 사용해 훈련하지만, 수학적으로는 프롬프트를 달리 주면 전혀 엉뚱하고 기괴한 행동을 만들어낼 수 있다. 이는 사용상의 문제가 아니라 모델들의 수학적 구조에 내재된 문제다.

필린 CTO는 “물론 자율주행 레벨 3, 레벨 4로 갈 수도 있습니다. 하지만 그럴 경우 레벨 3의 ODD는 극도로 제한적이어야 하고, 차가 그 ODD에서 제대로 주행하도록 만들기 위해서는 엄청난 노력이 요구됩니다. 백업 오퍼레이터(back operator) 개념과 함께 레벨 4도 마찬가지입니다. AI만으로는 완전한 자율주행을 구현하는 것은 불가능합니다”라고 말했다. 






 
레벨 3, 가능한가?
 
그러면 어떻게 레벨 2++를 너머 자율주행 레벨 3, 레벨 4에 도달할 수 있을까? AI 커뮤니티는 어떤 해결책을 제안하고 있는가? 보쉬의 전략은 무엇일까? 
필린 CTO는 튜링상 수상자이자 메타(Meta)의 AI 총괄 책임자 얀 르쿤(Yann LeCun)을 언급하며 어떤 일이 발생할지를 사전 예측하기 위한 월드 모델(World Models) 통합을 언급했다. 이 접근은 수학적으로 정교하지만 실제 이것이 잘 작동할지는 아직 확실치 않다.
한편, 보쉬의 돌파구는 말하자면 복잡성을 줄이는 방법으로 테스트 문제의 차원(dimensionality)을 줄이는 방법과 물리학의 모델 통합을 통해 “자율주행은 무한히 많은 변수로 다 검증 못한다”는 통념을 깨려는 시도다.

필린 CTO는 “자율주행의 ‘열린 세계 문제(open world problem)’가 존재하지 않는다고 생각합니다. 왜냐하면 우리는 20년 전 이론적 로보틱스(theoretical robotics)에서 개발된 하나의 트릭을 활용했기 때문입니다. 이를 차량의 주행 공간에 적용하면 수학적 기법을 통해 자율주행차의 테스트 문제에서 복잡성을 근본적으로 줄이는 것이 가능합니다. 우리는 이 결과를 내년 초 논문으로 발표할 계획이며 반응이 정말 궁금합니다”라고 말했다.

현재 모든 기업이 레벨 2+, 레벨 2++ 단계를 시작으로 이런 여정에 들어가면서 막대한 비용을 인프라와 데이터 처리에 쏟아붓고 있다. 필린 CTO는 업계가 진정한 자율주행으로 나아가려면 자율주행을 위한 공동 데이터, 데이터 처리, 툴링, 인증, AI의 설명 가능성(explainability) 측면에서 광범위한 협력이 요구된다고 봤다. 마치 The Autonomous처럼.
필린 CTO는 보쉬와 같은 기업 간 차별화 영역도 언급했다. 그것은 레벨 2++, 레벨 3 시스템을 실현하는 것, ODD를 확대하고 새로운 차량에 ‘18개월’과 같은 매우 빠른 시간 내에 기술을 구현하는 것이다. 

“자율주행이 도로 위에 올라오기까지 2050년까지 기다려야 한다고 생각하지 않습니다.
우리가 지금 문제들을 제대로 풀어낸다면 훨씬 더 일찍 이뤄질 것입니다.
다만 그 과정에서 중요한 것은 단지 VLM만 쓰면 모든 것이 해결된다는 식으로 말해서는 안 된다는 겁니다.
그것은 사실이 아닙니다.”  


[AEM] Automotive Electronics Magazine


<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>

PDF 원문보기

본 기사의 전문은 PDF문서로 제공합니다. (로그인필요)
다운로드한 PDF문서를 웹사이트, 카페, 블로그등을 통해 재배포하는 것을 금합니다. (비상업적 용도 포함)

  • 100자평 쓰기
  • 로그인


  • 세미나/교육/전시

TOP