데이터 양이 ADAS 훈련에 정말 최선일까?

Inferior data sets can increase the risk of accidents in driver-assistance systems: Is quantity really the best solution for training highly functional ADAS?

데이터 양이 ADAS 훈련에 정말 최선일까?

열등한 데이터 세트, 사고 위험 증가시킬 수 있다

2023-07-28 / 07월호 지면기사 /

글 | 바츨라프 디비시(Vaclav Divis), 선임 머신러닝 전문가, ARRK Engineering

ARRK Engineering이 새롭게 개발한 접근방식으로 데이터 세트를 검증하면 교육 프로세스에서 반복 루프를 줄일 수 있어 보다 효율적인 교육을 통해 ADAS의 전체 개발시간을 크게 줄일 수 있다. 또 운영 영역에 대해 정확하게 훈련된 시스템을 통해 기능안전성을 더욱 높인다.

글 | 바츨라프 디비시(Vaclav Divis), 선임 머신러닝 전문가, ARRK Engineering

ARRK Engineering
ARRK 그룹의 일원인 ARRK Engineering은 자동차 및 모빌리티 산업의 글로벌 개발 파트너로서 개념 단계부터 양산개발, 기계 및 전자부품의 검증 및 시스템 통합에 이르기까지 전체 제품 개발 프로세스의 종단 간 및 포괄적 지원을 위해 50년 이상 활동하고 있다. 중점 주제 내에서 ARRK Engineering은 기술적으로 포괄적인 방식으로 신속하게 프로젝트를 실현하기 위한 목적으로 독일, 루마니아, 중국, 네덜란드, 말레이시아 및 일본의 1,600명 전문가로 구성된 학제 간 팀을 운영한다.

첨단 운전자 지원 시스템(ADAS)은 오늘날 신차의 표준 기능일 뿐만 아니라 자율주행으로 가는 중요한 이정표다. 전방 차량과의 거리, 차선 내에서 위치를 유지하거나 좁은 공간에서도 주차를 지원할 수 있다. 이런 기술 어시스턴트가 독립적으로 더 많은 일을 할 수 있으려면 시스템의 기반이 되는 신경망이 더 나은 훈련을 받아야만 하고, 이에 따라 사용되는 데이터 세트는 계속 증가하고 있다. 하지만, 이것은 “훈련 데이터가 실제로 어느 정도의 ADAS ‘운영 영역(Operational Domains)’을 반영하는가?”란 질문을 제기하도록 한다.

이는 비교적 중요하지 않게 여겨지거나 거의 체크되지도 않는다. 그래서 오류에 대한 시스템의 민감성을 줄이기 위해 지금까지는 데이터 양만 지속적으로 증가해 왔다. 그런 결과 불필요하게 복잡하고 시간이 오래 걸리며 비효율적인 개발 프로세스가 발생했다.

이에 ARRK Engineering은 구체적인 운영 영역, 도시 교통 또는 고속도로와 같은 관련 시나리오와 관련해 모델을 분석하는 새로운 접근 방식을 개발했다. 현실을 부정확하거나 왜곡하는 데이터를 수정 또는 제거할 수 있어 ADAS를 더욱 신뢰할 수 있도록 하는 동시에 자원 효율적인 방식으로 훈련할 수 있도록 했다.

거대한 데이터 세트: 대량의 악순환

ADAS는 유명 OEM 업체들이 주도하고 있으며, 모빌리티 스타트업도 이를 따르고 있다. 소비자도 이를 원하고 있다. 점점 더 많은 차량에 레벨 2 및 레벨 3 운전자 지원 시스템이 장착되고 있다. 따라서 매일 수많은 도로 사용자가 차선유지 지원(LKA/LCA), 자동주차 및 어댑티브 크루즈 컨트롤(ACC)에 의존하고 있다. 따라서 도로에서의 일반적인 안전과 모든 도로 사용자의 안전은 이런 시스템의 적절한 작동에 크게 좌우된다. 이를 보장하기 위해, 이들의 신경 네트워크는 거대한 데이터 세트의 도움을 받아 훈련된다. 이 모델은 차량이 일상적인 교통 상황에서 마주칠 수 있는 모든 상황을 나타내도록 설계됐으며, 현장에서 ADAS의 자율적인 반응을 인식하고 계산하는 기반이 된다.

ADAS의 기능이 복잡할수록, 그들의 훈련에 더 구체적인 데이터 세트가 필요하다. 가능한 모든 교통 상황을 처리하기 위해, 데이터 세트는 최근 몇 년 동안 주로 양, 즉 서로 다른 날씨와 조명 조건에서 기록 시간의 순수한 수, 또는 주석 달린 객체 수에 초점을 맞춰 점점 더 확장돼왔다. 하지만 이는 필연적으로 부정확하거나 특정 운영 영역에 부적합한 데이터 비율을 증가시킨다. 새로 개발된 ADAS가 안정적으로 계속 기능하도록 보장하기 위해 품질 부족은 차례로 양으로 보상됐는데 이것은 악순환이다. 이는 이미 신경망의 훈련에만 몇 주가 걸리는 많은 반복 루프를 지닌 매우 긴 개발 시간으로 이어진다.

이런 딜레마에서 벗어나기 위해 자동차 산업은 초점을 양에서 데이터 세트 품질로 전환해야 한다. 따라서 ARRK Engineering의 머신러닝 전문가들은 운영 영역과 관련된 프로세스를 검증하고 필요한 경우 이를 수정하는 접근 방식을 개발했다. 이런 방식으로 개발이 더욱 효율적으로 이뤄질 수 있고, 더 중요하게는 ADAS의 기능안전성이 향상될 수 있다. 이는 향후 더 높은 수준의 자율주행으로 발전하기 위한 필수 전제 조건이다.

ACC는 차량을 특정 속도로 유지시켜 다른 도로 사용자 및 장애물과의 거리를 항상 충분히 유지한다.

ARRK Engineering은 도시 교통 또는 고속도로와 같은 구체적인 운영 영역, 관련 시나리오에 대한 데이터 세트를 분석하는 접근법을 개발했다.

ACC 사례:
궤도 계획과 관련 데이터 세트 분석

ADAS 기능인 ACC를 연구사례로 선정했다. 이 기능은 차량의 가속 및 제동을 자동으로 제어해 다른 도로 사용자 및 장애물과의 거리를 항상 충분히 유지한다. 이를 위해 시스템은 감지된 각 물체에 대한 이른바 TTC(Time to Collision)를 계산한다. 정의된 임계값 미만으로 떨어지면 차량은 그에 따라 감속에 반응한다. 따라서 차량 자체와 전방 물체 사이의 속도 차이가 클수록 TTC는 짧아지고 ACC는 더 일찍 반응한다.

이런 상관관계로 예를 들어 고속도로에서는 시스템이 훨씬 더 먼 거리에 있는 물체를 안정적으로 감지해야 하는 반면 도시 환경에서는 잠재적인 장애물이 훨씬 더 가까운 거리에 있을 수 있다. 하지만 다른 제조사의 ADAS가 이 작업을 올바르게 수행할 수 있을까?

이를 알아보기 위해 연구원들은 궤적 계획에 집중했다. 독일의 경우 속도 제한이 달라 고속도로 (권장속도) 130 km/h, 교외 (최대) 100 km/h, 도심 (최대) 50 km/h 등 ACC에 대한 요구사항이 다른 세 가지 운전 시나리오를 정의했다. 연구원들은 분석을 위해 유명 OEM에서 수년간 사용해 온 대형 모델들을 포함해 ONCE, nuScenes, A2D2, LyftLevel5, 웨이모, Kitti 등 총 6개 데이터 세트를 이용했다.

이 연구의 첫 번째 목표는 시스템이 식별할 수 있는 주석이 달린 객체의 통계적 분포를 결정하는 것이었다. 이는 주석에 사용되는 경계 상자(bounding boxe)의 크기, 그것들의 크기와 서로 간 거리 사이의 관계, 차량과 다른 객체 사이의 거리 및 센서 상 상대적인 위치 분포 및 이미지 시퀀스의 광학적 흐름을 평가하는 것을 포함했다. 이런 매개 변수를 사용해 연구자들은 객체가 얼마나 정확하게 주석을 달고 그에 따라 처음부터 경계 상자로 태그가 지정됐는지를 결정했다. 또 그들은 차량의 카메라 센서가 운영 영역의 사용과 균형에 대해, 예를 들어 (거의) 정적인 이미지가 포착된 상태(standing phase)에서 설명되는 비율 등을 통해 얼마나 잘 조정돼 있는지 조사했다.

많은 사람들이 서로 다른 접근 방식으로 데이터 세트에서 작업하기 때문에 객체 주석이 부정확한 경우가 많다. 이를 보완하기 위해 경계 상자가 필요 이상으로 많이 설정되고 종종 겹친다.

경계 상자가 많이 중첩된 것은 물론 정적 이미지를 제거해 훈련의 정밀도와 일반화를 높일 수 있다.

검사된 데이터 세트 최적화

분석 결과와 데이터 세트에서 추론된 품질은 ARRK Engineering의 머신러닝 전문가에게 부정적인 면으로 놀라움을 안겨줬다.
예를 들어, 그들은 교통 체증과 정지 상태에서 예기치 않게 많은 정적 이미지를 발견했는데, 이는 그렇게 표시되지 않았기 때문에 감지기의 정확도에 부정적인 영향을 미칠 수 있다. 한편으로는 조사된 모든 데이터 세트는 약 100 m 이상의 거리에서 주석이 달린 개체가 완전히 부족했다.

ADAS는 독일 고속도로에서 안전한 사용을 보장하기 위해 멀리 떨어진 장애물을 감지한다. 또 많은 사람이 서로 다른 접근 방식으로 데이터 세트에 대해 작업하기 때문에 개체의 주석이 종종 부정확할 수 있다. 이를 보완하기 위해 경계 상자는 필요 이상으로 더 많이 설정되고 종종 중첩되기도 한다. 이에 따라 시스템이 장애물을 감지하기가 더 어려워지고 교육 프로세스가 길어진다. 또 전체 센서 시야에 걸쳐 주석이 달린 객체 분포를 시각화하는 히트 맵은 객체 99.9%가 하위 절반에서만 감지됐음을 보여줬다.

연구원들은 이제 레벨 2 및 레벨 3 ADAS의 개발과 관련해 데이터 세트의 낮은 품질을 개선하는 것을 목표로 한다. 따라서, 그들은 시스템의 운영 영역을 고려하는 모델을 검증하고 그에 따라 결함을 수정하는 접근법을 개발했다. 예를 들어, 경계 상자가 많이 중첩된 이미지뿐만 아니라 정적 이미지를 제거함으로써 검출기 훈련의 정밀도와 일반화를 높일 수 있다.

또한, 연구 결과 데이터 세트를 특정 운영 시나리오에 어느 정도 적용할 수 있는지를 결정하고 훈련 중에 수정할 수 있다. ACC의 경우, 도시 지역, 시골 또는 고속도로에서의 운전을 포함한다. 카메라 센서를 실제 교통 상황에 더 잘 정렬함으로써 계산의 효율성과 ACC의 반응 시간도 향상시킬 수 있다.

교통 체증과 정지 상태에서 예기치 않게 많은 정적 이미지를 발견했는데, 이는 그렇게 표시되지 않았기 때문에 감지기의 정확도에 부정적인 영향을 미칠 수 있다. 반면 조사된 모든 데이터 세트에는 약 100m 이상의 거리에서 주석이 달린 개체가 완전히 부족했다.

전체 센서 시야에 걸쳐 주석이 달린 객체 분포를 시각화하는 히트 맵은 객체 99.9%가 하위 절반에서만 감지됐음을 보여준다.

검증된 데이터 세트 덕분에
도로안전 향상

ARRK Engineering이 새롭게 개발한된 접근방식으로 데이터 세트를 검증하면 교육 프로세스서 필요한 반복 루프를 줄일 수 있어 ADAS의 전체 개발시간을 크게 줄일 수 있다. 따라서 보다 효율적인 교육을 통해 이미 개발 단계에 있는 귀중한 시간을 절약할 수 있다. 또 운영 영역에 대해 정확하게 훈련된 시스템은 기능안전성이 더욱 높다. 예를 들어 실제 사용에서 ACC는 움직이는 물체와 고정된 장애물을 보다 안정적으로 감지하고 적절한 감속을 시작할 수 있다.
점점 더 많은 기능을 갖춘 ADAS가 자율주행으로 가는 길에서 우리의 도로에서 사용될 것을 감안하면, 이것은 일상적인 도로 교통의 전반적인 안전을 향상시킬 것이다.
( 논문은 SafeAI 2023 컨퍼런스에서 발표됐다. https://safeai.webs.upv.es/ )

바츨라프 디비시(Vaclav Divis), 선임 머신러닝 전문가, ARRK Engineering

AEM(오토모티브일렉트로닉스매거진)

<저작권자 © AEM. 무단전재 및 재배포 금지>

PDF 원문보기

본 기사의 전문은 PDF문서로 제공합니다. (로그인필요)
다운로드한 PDF문서를 웹사이트, 카페, 블로그등을 통해 재배포하는 것을 금합니다. (비상업적 용도 포함)

Autonomous & SDV
Bosch Switches On Level 3 in China
2026년 07월호 지면기사
보쉬, 중국에서 레벨 3를 켜다
2026-05-22 온라인기사
Auto China: Where the Industry's Center of Gravity Shifted
2026년 07월호 지면기사
Kotei's 80:20: An Experiment in AI-Based Automotive Software Engineering
2026년 07월호 지면기사
Kotei의 80:20, AI 기반 SW 엔지니어링 실험
2026년 07월호 지면기사

과월호 e-Book 보기

스마트앤컴퍼니(주)
대표이사 : 박성규
사업자등록번호 : 108-81-64739
통신판매업신고 : 2019-서울구로-2138호

서울특별시 구로구 디지털로34길 43, 607호(구로동, 코오롱싸이언스밸리1차)
P: 02-841-0017
F: 02-841-0584
webmaster@smartn.co.kr

©2026 Smart & Company Ltd. All Rights Reserved.

TOP