Safe Paths: Building Safe and Fail-Operational Architecture for Autonomous Vehicles
자율주행, 안전 타협은 없다!
The Autonomous Safe Architecture 패널토론
2024년 11월호 지면기사  / 한상민 기자_han@autoelectronics.co.kr



‘모든 것에 소홀히 하지 않겠다: 자율주행 안전의 격차를 줄인다’를 모토로 열린 제5회 The Autonomous Main Event 2024의 ‘안전 아키텍처’ 패널토론. 카네기멜론 대학의 필립 쿱만 교수, 보쉬 모빌리티의 마티아스 필린 CTO 등 6명의 세계적인 패널과 300여명의 전문가들은 ‘타협할 수 없는’ 자율주행 기술 안전 기준에 대한 그들의 입장을 재확인했다. 자율주행과 관련해 실리콘밸리와 차이나로 대표되는 기술기업과 스타트업, 전통적인 자동차 산업의 입장이 엇갈렸고 자동차 브랜드 간 기술 안전과 브랜딩 사이의 이해가 다른 가운데, AEM은 The Autonomous의 자율주행 패널토론을 통해 이 기술을 추진하는 대표들의 ‘안전 제일’을 깊이 새겼다. 1시간의 토론을 10분 내에 전한다.      

글 | 한상민 기자_han@autoelectronics.co.kr

Safe Architecture 패널.
좌측부터 카네기멜론대학 필립 쿱만(Philip Koopman) 교수, 퀄컴의 토마스 단네만(Thomas Dannemann) 선임이사, 일렉트로비트의 크리스토프 헤르치크(Christoph Herzig) COO, 피렌체대학 안드레아 본다발리(Andrea Bondavalli) 교수, 인피니언 피터 샤퍼(Peter Schaefer) CSO, 보쉬 모빌리티 마티아스 필린(Mathias Pillin) CTO.
  


TTTech Auto가 The Autonomous의 중심인 까닭 (autoelectronics.co.kr)
The Autonomous, 안전은 미래 모빌리티의 최우선 (autoelectronics.co.kr)
SDVerse, SDV 위한 ‘SW 소싱’ 가속 페달  (autoelectronics.co.kr)








Philip Koopman        수십 년 동안 자동차 안전은 인간 운전자가 있다는 가정하에 이뤄졌습니다. 예를 들어, 이는 ISO 26262의 통제 가능성 부분에 반영돼 있습니다. 하지만, 운전자가 없다면 모든 것이 달라집니다. 이것이 오늘 패널의 핵심 주제입니다. 패널들은 간단히 자신을 경험과 함께 소개해주세요. 

Mathias Pillin         저는 마티아스 필린으로 세계 최대 자동차 부품 공급업체에서 기술 및 엔지니어링을 책임지는 CTO입니다. ADAS, SDV 및 AI에 대한 강한 배경과 열정을 갖고 있고, 회사에 긍정적인 에너지를 불어 넣기 위해 애쓰고 있습니다. 

Peter Schaefer        저는 인피니언 테크놀로지스의 피터 샤퍼입니다. 인피니언의 자동차 부문을 책임지고 있습니다. 이전에는 마이크로컨트롤러 사업을 담당했으며, 그곳에서 AURIX의 첫 번째 ASIL-D 컨트롤러를 선도했습니다.

Thomas Dannemann        저는 퀄컴 유럽에서 제품 마케팅을 담당하는 시니어 디렉터입니다. 퀄컴 기술을 자동차에 도입하고 있습니다. 제 경력 대부분을 자동차 반도체 산업에서 보냈기 때문에, 다양한 OEM, 티어 1들과 차량용 컴퓨터와 기술 발전에 대해 많은 이야기를 나누며 작은 시스템에서 매우 큰 시스템으로 기술이 발전해온 과정을 다뤄왔습니다. 이 분야에서 새로운 기술을 도입하길 기대하고 있습니다.

Christoph Herzig        저는 Elektrobit의 CCO 크리스토프 헤르치크입니다. 일렉트로비트의 소프트웨어는 베이직 소프트웨어와 최고의 안전 OS, HPC 미들웨어, 첨단 기업 솔루션을 통해 6억 대의 자동차가 움직일 수 있도록 하고 있습니다. 2년 전 제품 관리 책임자로 입사했는데, 그 전에는 Here Technology에서 HD맵 관련 발전을 직접 경험했습니다. 이는 자율주행의 또 다른 수준의 가능성을 제공하는 것입니다. 

Andrea Bondavalli        저는 피렌체대학의 교수 안드레아 본다발리입니다. 제가 학생일 때, 내결함(full tolerance), 실시간 및 임베디드 시스템을 했고, 이후 철도 안전 분야에서 많은 경험을 쌓았습니다. 이 분야에서 여전히 배워야 할 점이 많다고 생각합니다. 그 후 자동차로 옮겼고, 다른 분야에도 관여하고 있습니다. 최근에는 안전-critical 시스템에 머신러닝과 AI를 어떻게 도입할 수 있을 지에 대한 고민을 하고 있습니다.



Philip Koopman         본론으로 들어가 보죠. 인간 운전자가 백업으로 갈 때의 기술 요구사항과 아키텍처 접근 방식 변화와 관련해 어떤 생각을 갖고 있나요?

Mathias Pillin         네, AI를 사용할 때 두 가지가 있습니다. 첫 번째는 제품을 설계하는 방법으로, AI를 생산성 도구로 활용하는 것입니다. 결국, 우리는 이전에 언급한 것처럼 표준 품질 기준을 준수해야 합니다. 이는 우리가 이 무대에서 잘 알고 있는 경험적 방법을 포함해, 시장에 전달하는 제품이 여전히 표준 품질 기준에 부합하도록 효율성을 확보하면서 보장해야 한다는 것입니다. 

두 번째는 매우 중요한 측면으로, 모빌아이의 CTO가 이전에 언급한 것처럼 AI는 경험적이라는 것입니다. 만약 AI를 기능 핵심에 배치한다면, AI가 실수하고 이상한 결과를 초래할 수 있다는 사실을 인정해야 합니다. 최종 제품이 도로에서 안전하게 배포될 수 있도록 보장해야 한다는 것입니다. 농담처럼 들릴 수도 있지만, AI 알고리즘이 탑재된 차량을 운전하다가 자전거와 사고가 나면 경찰이 도착했을 때 “죄송합니다, AI가 작동 중이라 아무것도 할 수 없습니다”라고 말할 수는 없습니다. 

Peter Schaefer        네, 시스템이 완전한 제어를 가질 때, 그것은 평균적인 인간 운전자보다 더 나아야 하고 더 안전해야 합니다. 그렇지 않으면 사회는 이를 신뢰하지 않을 것이고 거부할 것입니다. 그래서 두 가지를 충족해야 합니다. AI와 관련해 즉, 인지 및 의사 결정이 큰 도전 과제입니다. 그리고 시스템 오류를 어떻게 피하고 처리할 것인가가 중요합니다. 우리는 이를 식별해야 하고, 신속하고 신뢰할 수 있는 방식으로 대응해야 합니다. 이를 위해서는 안전하고 시간에 민감하며 신뢰할 수 있는 하드웨어와 소프트웨어의 강력한 기반이 필요하며, 이는 하드웨어가 제공하는 안전 기능과 결합돼야 합니다.

Thomas Dannemann        현재의 ADAS를 살펴보면, 항상 사람이 시스템에 참여하고 있습니다. 이제 자율주행 레벨 3 또는 레벨 4 시스템으로 나아가면서, 고장 발생 시에도 계속 작동해야 하는 상황에 직면하게 됩니다. 이는 “아, 시스템이 실패했거나 차가 갑자기 멈췄으니 운전자가 맡아야 한다”고 간단히 말할 수 없는 것입니다. 운전자는 상황을 인지하지 못할 수 있으며, 더 이상 차량과 상호작용할 수 없을 수도 있습니다. 

우리가 자주 듣는 것처럼, 이런 미래 시스템은 주로 AI를 사용해 운영될 것입니다. 이것은 한 가지 질문을 제기합니다. AI 시스템의 안전성을 어떻게 보장할 수 있을까? 이 문제는 제가 수년 동안 고민해 온 주제로, AI 네트워크는 비결정론적이기 때문입니다. 따라서 우리는 어떻게 그 안전성을 보장할 수 있을까요? 퀄컴에서는 이 문제 해결을 위해 ISO 8800(Road vehicles - Safety and artificial intelligence)을 공유하고 있으며, 이는 AI 네트워크의 안전성을 확보하기 위한 해결책을 제공하는 것을 목표로 하고 있습니다. 산업 관점에서 볼 때 저희의 접근 방식을 설명하면, 첫째, AI 네트워크가 적절한 ODD 내에서 정의돼야 합니다. 이것이 첫 단계로 우리는 AI 네트워크가 어떤 기능을 수행할 수 있는지, 무엇을 달성하고자 하는지를 결정해야 합니다. 네트워크나 모델의 수준과 정확성은 네트워크를 훈련시키는 데 사용되는 데이터의 품질에 크게 의존합니다. 이것이 중요한 입력 요소입니다. 또한, 이 정보를 지속적으로 업데이트하고 관련성을 유지하기 위한 프로세스를 표준화해야 합니다.

ADAS와 같은 시스템을 개발해 시장에 출시한 후, 향후 10년 동안 제대로 작동할 것이라고 가정할 수 없습니다. 시스템의 수명 전반에 걸쳐 지속적으로 업데이트하고 모니터링해야 합니다. 차가 현장에 나가 있을 때조차도 실패를 추적하고 시스템이 예상대로 작동하지 않았거나 운전자가 문제를 경험한 경우를 분석해야 합니다. 이 입력은 네트워크를 재훈련하는 데 사용돼야 하며, 업데이트된 네트워크는 이미 운영 중인 차량에 전달돼야 합니다. 따라서 유지보수 전략도 필요합니다. 이 모든 요소를 고려함으로써 우리는 AI 네트워크의 안전성을 확보할 수 있으며, 이는 미래에 필수적입니다. 

마지막으로, 리던던시는 핵심 요소입니다. 우리는 센서 입력부터 작동까지 모든 것을 처리하는 단일 대형 네트워크에 의존할 수 없습니다. 시스템 내에는 여러 경로와 fallback 옵션, 그리고 주요 네트워크가 실패할 경우 올바른 대응을 평가하고 결정할 수 있는 여러 레이어가 존재해야 합니다. 이런 방향이 우리가 가야 할 길입니다.

Christoph Herzig         기본적으로, 일반적인 실패 방지(fail safe) 기능으로 작동하는 크루즈 컨트롤과 같은 ADAS 기능과 완전 자율주행을 비교할 때, 시스템 아키텍처는 완전히 재설계돼야 합니다. 예를 들어, 어떤 ADAS 기능을 제공하는 ECU가 있고 이 ECU 두 개가 함께 작동해 리던던트 자율주행 시스템을 만듭니다. 그러나 만약 그 단일 ECU의 원래 설계가 완전한 린던던시와 고가용성의 신뢰성 있는 네트워킹을 위해 준비되지 않았고, 3배에서 5배의 안전 관련 기능을 처리할 수 없다면, 이런 시스템은 실패할 것입니다. 따라서 기존 데이터 시스템은 자율주행의 출발점으로 사용할 수 없습니다. 또 센서부터 액추에이터에 이르는 모든 구성요소는 이런 고신뢰성 네트워크를 활용할 수 있도록 재설계돼야 합니다. 



(마스크를 낀) 카네기멜론대학의 필립 쿱만 교수가 좌장을 맡았다.


Philip Koopman         안드레아, 우리는 이미 여러 가지를 다뤘지만, 제가 당신과 이야기하고 싶은 특정 내용이 있습니다. 그것은 큰 변화입니다. 우리는 수십 년간 이론적인 경험이 있으며, 무언가 잘못되면 기능이 종료되도록 만드는 방법을 정확히 알고 있습니다. 하지만 이제는 인간 운전자가 없기 때문에 대신해야 할 사람이 없습니다. 이것은 매우 구체적이고, 아마도 변화의 근본일 것입니다. 로보택시에서는 기능을 끄는 것은 통하지 않습니다. 

Andrea Bondavalli         맞아요. 레벨 4로 이동하는 결과는 운전자를 대체할 수 없다는 이야기입니다. 우리는 정말로 변화를 가져와야 하며 패러다임 전환이 필요합니다. 모빌아이에서 제시한 아키텍처를 보면, 우리는 전체적인 내결함 능력을 갖춘 아키텍처로 가고 있습니다. 이 맥락에서 이제는 안전이 아니라 진정으로 중요한 것은 신뢰성 문제입니다. 예를 들어, 비상 상황으로 대처하게 되었을 때, 보장해야 할 것은 시스템이 일정 시간 동안 올바르게 작동해야 한다는 것입니다.

이 시점에서 항공기와의 차이는 무엇일까요? 항공기는 8시간, 10시간, 혹은 20시간 동안 추락하지 않고 비행할 수 있어야 합니다. 시스템이 제대로 작동하지 않음을 감지하고 제어를 넘겼을 때, 시스템은 본질적으로 같은 작업을 수행해야 합니다. 그런 의미에서, 우리는 아직 이 문제를 완전히 해결하지 못했다고 생각합니다. 예를 들어, 우리가 가지고 있는 ISO 26262 등 모든 표준은 안전에 중점을 두고 있습니다만, 추가적으로 취해야 할 조치를 규정하고 있지는 않습니다. 항공산업을 살펴봐야 합니다. 그들은 수십 년 동안 비행해 왔고 우리가 활용할 수 있는 많은 지식을 개발해왔습니다. 

Philip Koopman         항공 및 철도 표준 등을 살펴보면, ISO 26262에는 없는 내용들이 있습니다. 그 이유는 그만큼 운전 중 장애가 발생했을 때도 운영할 수 있어야 하기 때문입니다. 크리스토프! 여기에서 또 다른 측면은 통신 네트워크입니다. 구체적으로 이것이 통신 네트워크에 어떤 영향을 미칩니까? 사람들은 CPU에 대해 말하지만, 네트워크가 하나뿐이고 그것이 다운되면 모든 것이 끝나버리는 것 아닙니까?

Christoph Herzig         하나의 네트워크가 다운되면 사실상 모든 것이 끝나버립니다. 해당 네트워크에 연결된 다양한 구성요소가 있어야 합니다. CAN과 이더넷을 결합해 함께 작동할 수 있도록 설계 관점에서 리던던시를 만드는 것이 중요합니다. 그러나 실패 안전(fail-safe) 시나리오에서는 통신이 중단되고, 실패 운영(fail-operation) 시나리오에서는 오류 메시지가 오는지 또는 신호가 통과하지 않는지를 감지해야 합니다. 실패 안전 구성요소를 격리하고, 실패 운영 부분을 활성화해 인계해야 합니다. 이를 위해 AI가 이런 변화를 감지하고 실패 운영 상황에 진입하고 있는지 이해할 수 있어야 할 수 있습니다. 그러나 이는 적절한 아키텍처가 필요합니다. 

이것은 본질적으로 항상 작동하고 기능이 보장되는 중요한 통신을 위한 별도의 전용 네트워크가 필요하다는 의미입니다. 시스템을 구성하는 ECU의 ASIL-D 구성요소는 이 리던던트 네트워크에 연결돼 인계해야 합니다. 이는 시스템 설계에 대한 사고방식에서 중대한 변화입니다. 그러나 Classic AUTOSAR와 같이 일부 ASIL-D 기능을 구동하는 기존 소프트웨어 구성요소를 단순히 제거할 수는 없습니다. 그 기반 위에서 구축해야 합니다. 따라서 주행 행동을 상위에서 하위로 정의해야 하며, AI 시스템이 제공하는 규칙을 패턴으로 삼아야 합니다. 그러나 모든 것을 운영 가능하게 유지하려면, 궁극적으로 안전 기능을 구성하는 실시간 구성요소를 무시할 수 없습니다. 시간이 지남에 따라 이들은 증가합니다. 따라서 시스템을 단순히 위에서 아래로 구축하지 않고, SoC에서 시작해 실시간 OS와 ASIL-D 기능을 확보하는 아키텍처를 아래에서 위로 구축하는 것이 매우 중요합니다.

Philip Koopman         우리는 이를 아직 끝내지 못했습니다. 가끔 기업들과 이야기할 때 “당신들의 리던던시는 뭔가요?”라고 물으면, 그들은 “우리는 두 개의 CPU가 있습니다”라고 말합니다. “메모리 파티션이나 메모리 격리는 어떻게 되나요?”라고 하면 “그렇게 한다”고 합니다. 그리고 “좋은 날에는 두 개의 통신 네트워크도 있다”고 합니다. 이 외에도 여러 가지가 있습니다. 하지만 필린! 아직 끝나지 않았습니다. 고려해야 할 다른 것들도 있을 것입니다. 어떤 것이 있을까요? 제가 나열하지 않은 일반적인 고장들, 보통 의심받는 것들은 무엇인가요?

Mathias Pillin         저는 세 가지 핵심 요소가 있다고 생각합니다. 첫 번째는 컴퓨터 아키텍처입니다. 여기서 반드시 두 배로 늘릴 필요는 없습니다. 다른 설정과 간섭 아이디어로 스마트하게 할 수 있습니다. 두 번째는 통신입니다. 차량에서 매우 빠르고 안전한 통신을 갖는 것이 중요합니다. 이는 후속 리던던시를 활용하기 위해서일 뿐만 아니라 차량 내의 다른 용도에도 필요합니다. 세 번째 주제는 지능형 전력 분배입니다. 현재 자동차에서 많은 고장이 배선이나 전기적 결함, 예를 들어 단락으로 인해 발생하고 있습니다. 우리는 이를 처리해야 합니다. 전원이 꺼지면 아무것도 작동하지 않기 때문입니다. 따라서 여기에는 리던던트 실패 운영 전력 분배 시스템이 필요합니다.

이를 실현하기 위한 핵심 요소는 스마트 전력 반도체이며, 이것들은 다양한 기능을 갖고 있습니다. 그중 몇 가지는 와이어 하네스를 보호하는 것이고, 두 번째는 가능한 한 빨리 오류나 실패를 감지하는 것입니다. 세 번째는 그 실패와 결함을 격리하고, 전력이 꺼질 위기에 처한 시스템을 이웃 기능과 연결할 수 있는 대체 전원으로 연결하는 것입니다. 오직 이 방식과 리던던시로만 우리는 컴퓨팅 부분이 항상 전원이 켜져 있도록 보장할 수 있습니다. 전반적으로 리던던시는 컴퓨팅, 통신, 전원 공급에 대한 것입니다. 좋은 소식은 우리가 스마트하게 설계한다면 모든 영역에서 두 배로 늘릴 필요가 없다는 것입니다.


Philip Koopman         반드시 기억해야 할 것은 이런 작업을 실제로 해야 한다는 점입니다. 많은 경우 사람들은 여기에 깊이 파고들지 않습니다. 예를 들어 커넥터가 있습니다. 커넥터가 소금물에 노출돼 핀들이 부식됐는데 모든 리던던트 신호가 그 커넥터를 통해 전송되고 있었습니다. 그러니까 공통 원인 고장을 피하려면 깊이 파고들 필요가 있다는 것입니다. 이 주제에 대해서는 항공에서 많은 것을 배울 수 있습니다. 

Thomas Dannemann        제가 말했듯이, AI 네트워크는 이 이야기에서 매우 중요한 핵심 부분이며, 반드시 안전하게 만들어야 합니다. 우리는 리던던시를 통해 기능과 센서를 구축해 신뢰할 수 있도록 해야 합니다. 예를 들어, 한 세트가 고장 나면 다른 세트를 신뢰할 수 있도록 시스템을 설계하는 것이 중요합니다. 퀄컴에서는 SOC를 안전 규칙에 따라 설계하고 있습니다. 우리는 단순히 모바일 칩을 자동차에 판매하는 모바일 회사가 아닙니다. 안전을 염두에 두고 시스템을 설계하는 데 중점을 두고 있습니다. 프로세스 내에서 ASIL-D를 지원하는 안전 기능을 포함해, SOC 내부에서 실패 운영이 가능하도록 설계하고 있습니다. 

현 시스템에서는 고장이 발생하면 시스템을 재설정하거나 종료하는 것이 적절한 해결책이지만, 미래에는 더 이상 그렇게 할 수 없습니다. 미래에는 시스템이 고장이 나더라도 계속 작동해야 한다는 실패 운영이 필요합니다. 즉, 설계와 아키텍처에서 충분한 센서와 리던던트 데이터 경로를 마련해, 주요 경로가 고장 나더라도 동일하게 작동할 수 있어야 합니다. 또는 반대로, 보조 경로가 고장날 수도 있습니다. 그런 상황에서 무엇이 맞고 무엇이 잘못되었는지, 어디에서 실수가 있었는지, 어디에서 고장이 발생했는지를 판단하고 올바른 결정을 내려야 합니다. 이것이 바로 시스템이 안전 규칙을 철저히 준수하도록 작업하는 방식입니다.

퀄컴은 소프트웨어 회사들과 협력하고 있습니다. 단순히 실리콘만으로는 작동하지 않기 때문에, 함께 제공되는 모든 소프트웨어를 고려해야 합니다. 하나는 다른 하나에 의존하기 때문에 업계의 강력한 파트너 네트워크와 협력해 자율 솔루션을 가능하게 하는 광범위한 솔루션을 제공하려고 노력하고 있습니다. 그리고 우리는 레벨 3 및 레벨 4에도 안전 솔루션을 제공할 수 있도록 다양한 업체, 업계와 긴밀히 협력하는 데 매우 개방적입니다.

Andrea Bondavalli         추가하고 싶은 것이 있습니다. 아마도 리던던시 외에 어느 정도의 다양성(diversity)이 필요할 것입니다. 그 이유는 고장이 어떤 식으로든 서로 연관되지 않도록 보장해야 하기 때문입니다. 그렇지 않으면 우리가 구축한 리던던시가 무의미해질 것입니다.

Thomas Dannemann        저도 덧붙이자면, 과거에는 레벨 3나 레벨 4 시스템을 위해 거대한 컴퓨터 SOC가 필요하다고 생각했습니다. 하지만 실제로는 작은 멀티 CPU들이 더 유용할 수 있습니다. 한 시스템이 고장 나면 다른 시스템에 의존할 수 있기 때문입니다. 큰 CPU 하나만 있고 그 시스템이 고장 나면 끝이지만, 여러 개의 CPU나 프로세서를 사용해 중복 계산을 하거나, 충분히 차별화되고 독립적인 계산을 통해 올바른 결정을 내리는 것이 더 낫습니다. 한 시스템이 오류를 알려줄 때 다른 시스템이 이를 보완할 수 있기 때문입니다.

Christoph Herzig         하지만 형식 승인과 재승인을 고려할 때, 다양한 리던던시를 도입하면 관리가 쉬운 지의 여부를 지켜봐야 하는 복잡성도 생깁니다. 동질적인 리던던시를 사용할 경우엔 더 잘 통제할 수 있는 스택을 얻게 됩니다. 그래서 궁극적으로 어떤 아키텍처가 성공할지는 아직 지켜봐야 할 것 같습니다. 전체 소유 비용에 있어서 수명 주기 관리는 매우 중요하기 때문입니다.

Andrea Bondavalli         만약 우리가 어떤 형태로든 다양성을 제공하지 않으면, 우리가 구축한 리던던시가 동일한 고장에 의해 무력화될 위험이 있습니다. 그래서 이런 문제들이 발생할 수 있습니다. 예전에 항공 업계에서는 세 가지 다른 프로세서를 사용한 TMR(Triple Modular Redundancy) 시스템을 만들었습니다.


Philip Koopman         아리안(Ariane) 5 501호에 대해 들어본 분 계신가요? 아리안 5 로켓이 발사되었고, 결국 궤도를 벗어나 파괴됐습니다. 문제는 정수 오버플로(integer overflow) 때문이었죠. 백업 컴퓨터에 정수 오버플로가 발생했는데, 로켓의 수평 속도가 컴퓨터가 처리할 수 있는 한계를 넘었기 때문입니다. 이 컴퓨터들은 이미 인증받은 아리안 4에서 사용됐던 것들이었습니다. 백업 시스템에서 오버플로가 발생하고, 백업 시스템은 ‘내가 꺼져야겠군. 주 컴퓨터는 괜찮겠지’라고 판단했습니다. 그런데 주 컴퓨터에서도 같은 정수 오버플로가 발생했고, 주 컴퓨터도 꺼지면서 결국 가이드 시스템이 없어 자폭했습니다. 안드레아는 이 이야기를 속속들이 알고 있죠. 그래서 다양성에 대해 이야기하는 겁니다. 여기서 함정은 만약 잘못된 계산이나 예외 처리가 있다면, 문제가 동일한 방식으로 발생할 경우 리던던시가 도움이 되지 않는다는 것입니다. 

현실적으로 우리는 머신러닝 기반 AI를 사용할 수밖에 없고, 그것이 우리가 오픈 월드를 다룰 수 있는 유일한 방법이라는 사실입니다. 그것을 사용하지 않아도 된다면 안전성은 쉬운 문제일 텐데, 그게 아니기 때문에 어렵습니다. 그리고 AI가 데이터를 통해 학습하고 배운다는 것을 알고 있습니다. 그래서 사람들은 이런 말을 하죠. “이 AI는 음주운전은 하지 않을 것이다. 인간의 실수를 하지 않는다”라고요. 하지만 그게 결국 프로그래머의 실수를 데이터 학습의 실수로 바꾸는 것일 뿐 아닌지 모르겠습니다. 





보쉬 모빌리티의 마티아스 필린 CTO(맨 우측)은 패널토론의 주역 중 한명이었다. 그는 자율주행의 문제는 하드웨어가 아닌 가디안에 대한 소프트웨어와 AI의 측면에 있다고 규정했다.  



Mathias Pillin         저도 도발적인 질문을 해보겠습니다. 우리는 지금 하드웨어에 대해 많이 이야기하고 있지만, 제 가설은 레벨 4에는 하드웨어 문제가 없다는 것입니다. 지난 10년 동안 실패한 모든 프로그램을 보면, 보쉬도 파트너들과 그런 것을 해보면 하드웨어 문제는 없습니다. 센서와 컴퓨팅 파워가 가득 찬 차들이 있고, 라이다로 달까지 측정할 정도로 모든 것이 완벽했지만, 문제는 해결되지 않습니다. 그래서 제 가설은 이 문제가, 또는 레벨 4가 확장되지 않는 이유는 두 가지가 있다는 것입니다. 

첫째는 특정 도시에 차를 배치하고, 그 도로에서 레벨 4 기능을 수행하게 하고 나면, AI의 한계 내에서 네트워크를 재훈련시켜 다른 도시에 배치하는 데 또 다시 몇십억 유로가 들어간다는 것입니다. 이건 불가능한 일입니다. 그래서 확장성 문제가 발생합니다. 이는 데이터 부족과도 관련됩니다. AI 알고리즘은 훈련이 필요하고, 일정한 안전 표준을 충족해야 하며, ODD도 준수해야 하고, 고객 요구도 만족시켜야 합니다. 

두 번째는 본질적으로 안전과 관련된 것입니다. 저는 모빌아이 CTO의 이야기가 매우 좋았는데, 그가 핵심을 짚었기 때문입니다. 생성 AI를 통해 차량을 한 도시에서 다른 도시로 이동시키는 ODD 문제를 해결할 수 있습니다. 왜냐면 의미론적 인터페이스(semantic interfaces)를 사용하면, 파리든 뉴욕이든 도쿄든 상관없이 무슨 일이 일어나는지 식별하고, 법적으로 적합한 반응을 유추할 수 있기 때문입니다. 그래서 확장성 문제는 해결될 것이라고 생각합니다.

그런데 두 번째 문제, 그가 ‘가디안’이라고 부른 안전 문제입니다. 저는 다른 개념을 제안하고 싶습니다. 이 부분은 모든 자율주행 프로그램에서 부족하다고 생각합니다. 그들은 어느 정도 목표에 접근하고 있지만, 상용 운영을 시작하고 나서 자동차 산업이 도달해야 할 곳에서 멈춥니다. 자동차 산업은 수십만, 수백만 단위로 확장하는 것입니다. 그런데 우리는 지금 수십, 수백 대에 대해서만 이야기하고 있고 그것이 문제입니다. 첫 번째 문제는 생성 AI를 통해 많이 해결할 수 있지만, 이 안전 방패, 가디언, 어떻게 부르든 간에 이것이 해결되지 않는 한 확장은 불가능하다고 생각합니다. 그리고 이것은 하드웨어 문제가 아닙니다. 

죄송합니다, 동료 여러분, 하지만 이 모든 것이 필수적입니다. 우리가 실제 도로에서 확장하려면 이런 요소들을 갖추는 것이 중요합니다. 비용을 관리하고 지속적으로 나아갈 수 있도록 하는 것이 중요합니다.


Philip Koopman         그 말이 맞습니다. 지금 도로에 로보택시가 있습니다. 그러니까 하드웨어는 이미 존재합니다. 하드웨어는 확실히 어렵습니다. 제 첫 직업은 CPU 하드웨어 설계자였는데, 하드웨어가 얼마나 힘든지 잘 알고 있습니다. 하지만 소프트웨어가 더 어려운 부분입니다. 그건 의심의 여지가 없습니다. 그래서 안드레아, 방금 이 문제가 불가능하다고 들었는데, 어떻게 해결할 수 있을까요? 

Andrea Bondavalli         우리는 안전-critical 시스템에 머신러닝이나 AI 기술을 안전하게 통합하는 방법을 이해하려고 노력하고 있습니다. 확실한 해답은 없지만, 학계에서 진행 중인 여러 가지가 있습니다. 그중 하나는 설명 가능한 AI(Explainable AI)입니다. 많은 사람이 결정 과정의 합리성을 설명할 수 있는 AI 모델을 만들기 위해 노력하고 있는데, 이는 검증이나 유효성 검사를 쉽게 할 수 있게 해줍니다. 하지만 여전히 복잡한 신경망은 설명 가능성과 거리가 멀기 때문에 이 경로가 우리를 어디로 이끌지는 잘 모르겠습니다.

우리가 머신러닝 분석을 통해 알게 된 또 하나는 알고리즘 내에서 신뢰도가 낮아질 때 실수가 발생하는 경우가 많다는 것입니다. 그래서 우리는 결정 신뢰도를 측정하는 방법을 이해하기 시작했고, 신뢰도가 낮을 경우 결정을 차단하는 안전장치를 통해 성능을 한 자릿수 이상 개선할 수 있었습니다. 하지만 현재의 이진 분류 또는 멀티 클래스 분류의 성능을 고려할 때, 한 자릿수 개선은 여전히 충분하지 않습니다.

마지막 대안은 샌드박싱(sandboxing)입니다. 이는 이런 것들에 의존하지 않고, AI에 의해 구동되지 않는 체크를 통해 주위를 구축하는 것을 의미합니다. 물리적 양이나 물리적 법칙과 같은 것입니다. 우리는 이런 것들을 다루는 방법을 알고 있습니다. 그리고 오랜 기간 잘 알려진 공학 원칙을 통해 이런 디아볼릭 머신을 제어할 수 있다면, 머신러닝 목표나 AI 기술을 통합할 수 있습니다. 결국, 이는 아키텍처 문제이지만, 우리는 AI 없이 머신러닝이나 AI를 어떻게 제어할 수 있을지를 이해하려고 노력해야 합니다.


Philip Koopman         제가 보기에 인지와 예측이 어려운 부분이고 나머지는 해결 가능하다고 생각합니다. 인지와 예측의 후속 작업은 매우 잘 이루어질 수 있습니다. 
자동화된 행동에는 안전성과 허용성 사이의 내재된 긴장이 있습니다. 항구를 떠나지 않는 배는 항상 안전하지만, 배는 그렇게 만들지지 않습니다. 자동차도 마찬가지입니다. 예를 들어, 멈추느냐, 멈추지 않느냐에 따라 보행자와 탑승자의 생명에 문제가 생긴다면 어떻게 해야 할까요? 이 모든 것을 확보하려면 어떻게 해야 할까요?


Mathias Pillin         아직 답하기에는 이르다고 생각합니다. 이전에 제안된 아키텍처, 즉 가디언 개념을 살펴보면, 본질적으로 최적의 성능과 도로에서의 행동을 추구하는 AI로 구동되는 주요 경로가 반영돼 있으며, 운전자가 매우 편안하게 느끼도록 합니다. 또한, 그 아래에는 보수적인 운전자가 있어야 합니다. 이 보수적인 운전자는 독일 아우토반에서 시속 250km로 주행하지 않을 것이고, 도심에서도 지나치게 공격적이지 않을 것입니다. 대신 차량의 움직임에 대해 더 보수적인 접근 방식을 취할 것입니다. 이는 관리 가능한 문제라고 생각하며, 양측 모두 이 문제에 대해 작업하고 있어 실행 가능한 솔루션이 될 수 있다고 믿습니다.

핵심 질문은 가디언과 성능 경로 간 상호작용이 어떻게 처리되는가입니다. 이는 궁극적으로 도전적인 문제입니다. 제 관점에서 볼 때, 이것은 오탐지와 미탐지의 비율을 결정짓고, 사용자가 시스템을 실제로 채택할 것인지의 여부에 매우 중요합니다. 언론에서 고속도로에서 갑자기 정지하는 차량 브랜드에 대해 들은 바 있는데, 이는 어떤 경우에도 발생해서는 안 되는 일입니다. 아키텍처 및 개념적 관점에서 해결책이 있을 수 있다고 생각하지만, 가디언과 성능 경로 간 상호작용은 여전히 도전 과제로 남아 있습니다.

Christoph Herzig         소프트웨어와 관련 없는 내용을 추가하자면, 승객에 대해서는 어떻게 할까요? 완전 자율주행 모드에서 간혹 승객이 불편하게 느낄 수 있습니다. 저는 이 기술에 관심이 많은 사람이라 시스템에 어떻게 반응하는지 다양한 프로필을 가진 실제 승객을 테스트하는 것이 매우 중요하다고 생각합니다. 그것이 궁극적인 테스트입니다. 우리는 운전자를 완전히 제거하기 때문에, 이런 관점을 고려하는 것이 중요합니다. 운전자의 경험에만 집중하는 것은 우리가 빠질 수 있는 함정이 될 수 있습니다.

Thomas Dannemann         자동차의 상황인지(contextual awareness)도 필요합니다. 인간이 안개가 끼거나 눈이 많이 오는 날에는 대부분 속도를 줄이고 훨씬 더 조심스럽게 운전하는 것처럼 자동차도 같은 방식으로 해야 합니다. 자동차가 ‘내 센서는 항상 최상의 성능을 유지하고 모든 것을 감지할 수 있다’라고만 할 수는 없습니다. 자동차는 현재 자신이 어디에 있고 무엇을 하고 있는지 인식해야 합니다. 만약 인간이 도로를 가로지르는 공을 본다면, 누구나 아이가 뒤따를 것을 예상합니다. 우리는 AI 네트워크가 이처럼 행동해 도로에 장난감이 있다면, 주변에 아이들이 있을 것이라고 이해하는 목표를 달성해야 한다고 생각합니다. 

내가 어디에 있는지 인지하고 어떻게 행동해야 하는지를 아는 것은 시스템에서 매우 중요합니다. 모두가 ADAS 소프트웨어를 작성할 때, ‘나는 센스가 있고 시야가 있으며 모든 장애물을 볼 수 있다. 장애물이 없다면, 그냥 운전할 수 있다’고 하지만, 학교 주변에서 운전하고 있을 수 있다는 것을 인지 못할 수도 있습니다. 학교 주변은 사고 발생 위험이 훨씬 더 높습니다. 그러므로 우리는 추가적인 구성요소로 상황인지를 더해야 합니다.


Philip Koopman         저는 사고율과 사망률에 대한 수치를 나열하는 것만으로는 충분하지 않다고 말하고 싶습니다. 사람들이 우리의 차에 탔을 때 그 거동 때문에 두려움을 느낀다면, 그것은 주목해야 할 추가적인 제약 조건입니다. 수치가 중요한 것은 맞지만, 무모한 운전이나 승객의 불편함과 같은 요소들도 고려해야 합니다. 하지만 일단 이런 것들은  패널 주제가 아니어서 넘어가겠습니다. 
지금 레벨 3, 레벨 4, 레벨 5에 도달하겠다고 말하는 회사들이 있습니다. 그들은 레벨 2와 레벨 2+, 레벨 2++, 그게 무엇이든 레벨을 올리고 레벨 3에 도달할 계획입니다. 그리고 그들은 잘못된 부정과 긍정을 처리하는 방식이 서로 다릅니다. 운전자가 차량을 제어하는 경우 10번 중 9번 브레이크를 밟으면 9번은 사고를 피하고 10번째엔 운전자의 잘못이 되는 것이지만, 로보택시라면 10번 중 9번 브레이크를 밟고 10번째에 사고가 나면 그것은 모든 것이 자동차의 잘못입니다. 저는 일부 사람들이 이 수준으로 전환할 때 필요한 변화를 과소평가한다고 생각합니다. 모든 것을 완전히 다시 조정해야 합니다. “지금 우리가 조금 더 앞서 있다!”고 말할 수는 없습니다. 

자, 마티아스, 머신러닝이 요즘 가장 뜨거운 주제입니다. 당신 의견은 무엇인가요?  


Mathias Pillin         ‘엔드 투 엔드’가 의미하는 바를 명확하게 정의해야 합니다. 지난해와 올해 발표된 연구 논문들이 엔드 투 엔드 머신러닝은 센서부터 행동, 주행 전략, 차량과의 상호작용까지 모든 것을 포괄한다고 언급하고 있습니다. 이런 엔드 투 엔드 접근 방식은 매우 흥미로운 결과를 낳습니다. 올해 저는 직접 차량을 경험해보았고, 특정 상황에서는 놀랍도록 잘 처리했지만, 아주 간단한 시나리오에서 끔찍한 실패를 하는 것을 경험했습니다! 예를 들어, 신호등을 지나갈 때 정지선이 있는데 빨간 신호를 무시하는 경우가 있습니다. 그러고는 “우리는 엔드 투 엔드 네트워크를 훈련시켜서 여기 정지선에서 멈춰야 한다”고 말하는데, 이는 받아들일 수 없는 문제입니다. 

그래서 저는 엔드 투 엔드의 핵심은 시스템을 어떻게 분할하고 학습 루프를 어디에 배치할지를 정의하는 것이라고 생각합니다. 예를 들어, 보쉬에서는 딥러닝 기술이 완전히 통합된 레이다 시스템을 갖추고 있고, 이것은 거의 라이더와 동일한 수준으로 작동하는데, 이 레이다 센서에서만 엔드 투 엔드 훈련을 수행한 다음 그 뒤에 퓨전 레이어를 추가하고, 그 뒤에 또 다른 엔드 투 엔드 학습 루프를 배치합니다. 흥미로운 점은 이것이 우리 제품의 아키텍처에 상당한 변화를 가져올 가능성이 있다는 것입니다.

과거에 보쉬 제품은 주로 하드웨어 기반이었습니다. 모두가 플랫폼을 구축하는 방법을 알고 있으며, 우리는 또한 통합 프레임워크, 인터페이스, 데이터 전송 속도 등에 대해 논의했습니다. 하지만 GenAI, 변환기 네트워크, 기본 모델에 관련해, 훈련이 필요한 하위 모듈 위에 학습 루프를 어디에 어떻게 배치할지를 집중적으로 살펴봐야 합니다. 엔드 투 엔드 시스템은 모빌아이가 설명한 것처럼 전통적으로 분산된 시스템에서도 구현할 수 있고 이것은 정말 중요합니다. 왜냐면 교통 규칙과 유사한 요소를 통합하는 설명 가능한 시스템을 갖추려면 분해 가능한 접근 방식이 필요하기 때문입니다. 기존의 사전 훈련된 모듈 위에 적절한 엔드 투 엔드 학습 루프를 배치해야 합니다. 이런 점에서 그들이 우리와 매우 유사한 방식으로 사고하고 있다는 말을 들어 매우 기뻤습니다.




피렌체대학의 본다발리 교수(맨 우측)는 자율주행 시스템의 리던던시와 관련해 단순 카피가 아닌, 어떤 형태로든 다양성을 제공하지 않으면 동일 고장에 의해 메인과 백업 시스템 모두 무력화될 위험이 있다고 경고했다. 


Philip Koopman         정리하겠습니다. 사람들이 제게 AI에 대한 생각을 물어보면, 엔드 투 엔드 머신러닝이 전형적인 사례에서 적은 자원으로도 훌륭하게 성과를 낼 것이지만, 에지 케이스에서는 훨씬 더 나쁜 성능을 보일 것이라고 말합니다. 안전 문제는 전형적인 사례와 관련 없습니다. 제가 걱정하는 것은 에지 케이스와 드문 사건에서 성능이 저조하면 문제가 발생한다는 것입니다. 특히 그런 드문 사건들이 심각한 결과를 초래할 경우 더욱 그렇습니다. 안전의 주요 관심사는 이 드문 사건과 심각한 결과와 관련됩니다. 
이런 것과 관련해 일부는 계획이 있다고 주장하지만, 아직 그 계획을 듣지 못했습니다. 모든 에지 케이스를 효과적으로 처리할 수 있도록 보장하는 것은 정말 도전적입니다. 그 발전을 지켜보겠습니다.
  

Thomas Dannemann        제가 마지막으로 하고 싶은 말은 우리가 차세대 자동차 컴퓨터를 구축할 때, 이런 자동차 컴퓨터가 도로에 있는 동안 지속될 수 있도록 해야 한다는 것입니다. 시스템이 시간이 지나도 업그레이드될 수 있도록 충분한 컴퓨터 성능과 메모리 용량을 확보해야 한다는 것입니다. 세대마다 “더 이상 시스템을 업데이트할 수 없다”면서 컴퓨터 성능이 부족해지는 상황에 빠지지 않도록 해야 합니다. 이는 CPU, GPU, AI 성능 등 필요한 모든 것을 포함하며, 단순히 목적에 맞는 시스템을 구축하는 것에 그치지 않아야 합니다. 정말로 앞을 바라보고 미래에 대비할 수 있도록 해야 합니다.

Christoph Herzig         우리는 확실히 이런 컴퓨팅 파워를 지속적으로 활용하고 안전성을 확보하기 위해 더 나은 소프트웨어가 필요합니다. 그러나 제가 이야기하고 싶은 또 다른 측면은 자율주행차의 안전과 관련된 다양한 이해관계자들과 신뢰를 구축하는 지속적인 문제입니다. 우리는 모델을 개방하고 소스 코드를 공유하며 더 많은 커뮤니티가 기여하는 오픈소스 소프트웨어 세계에서 많은 것을 배울 수 있습니다. 물론 유지 관리자의 역할은 여전히 정의될 필요가 있지만요. 일본의 The Autoware Foundation과 Tier 4를 언급하고 싶습니다. 그들은 자율주행 모델을 완전히 오픈소스로 구축했으며 모든 사람의 기여를 환영합니다. 저는 이것이 신뢰를 구축하는 한 가지 방법이라고 믿습니다.

Andrea Bondavalli         미래를 생각하고 방대한 소프트웨어 양과 지속적인 구성 및 업데이트 욕구를 고려하면, 자동차에서 실행되는 소프트웨어 품질을 충분히 보장하는 데에 큰 도전 과제가 있다고 생각합니다. 조합은 사실상 무한할 것이며, 각 업데이트나 구성의 변경은 이해되고 통제돼야 합니다. 이는 미래에 상당한 문제가 될 것입니다.

Peter Schaefer         우선, 하드웨어는 모두 갖춰져 있고 문제 없다는 마티아스의 발언이 마음에 듭니다. 우리는 AI, 인지, 그리고 올바른 결정을 내리는 것에 대해 많은 이야기를 나눴습니다. 그러나 자율주행에 접근하고 차량이 하루에 한 시간 운전하는 것이 아니라 10시간, 20시간을 운전하게 될 경우, 고장이 발생할 가능성은 높아질 것입니다. 따라서 올바른 하드웨어를 갖추고 이를 효과적으로 구현하는 것이 필수적입니다. 

그리고 아직 보안에 대해 논의하지 않았는데, 이는 매우 중요합니다. 전체 E/E 아키텍처에 대한 설계 보안은 이런 차량이 해킹되거나 악용되지 않도록 보장하는 데 필수적입니다. 또 한, 전력 분배나 제어 시스템과 같은 하드웨어 측면에서 혁신 잠재력이 많습니다. 우리는 이런 분야에서 발전해야 합니다. The Autonomous의 슬로건인 ‘모든 것에 소홀히 하지 않겠다: 자율주행 안전의 격차를 줄인다(Cutting No Corners: Bridging the Gap in AV Safety)’로 돌아가면, 이는 비용 압박이 가해지는 시기에 매우 중요합니다. 특히 차량이 더 자주 운전되는 상황에서 전체 시스템의 운영 신뢰성을 보장하기 위한 스마트한 방법을 찾아야 합니다.

Mathias Pillin         제 요청은 유럽 자동차 산업이 현재보다 훨씬 더 많은 역량을 구축해야 한다는 것입니다. 또, 무엇을 채택하고 무엇을 채택하지 않을 것인지에 대한 결정을 내릴 수 있는 능력을 개발해야 합니다. 만약 우리가 그렇게 하지 않는다면, 이 분야의 발전 속도에서 다른 지역이 초월하는 결과를 맞게될 것입니다. 



<저작권자 © AEM. 무단전재 및 재배포, AI학습 이용 금지>

PDF 원문보기

본 기사의 전문은 PDF문서로 제공합니다. (로그인필요)
다운로드한 PDF문서를 웹사이트, 카페, 블로그등을 통해 재배포하는 것을 금합니다. (비상업적 용도 포함)

  • 100자평 쓰기
  • 로그인



TOP