HW 친화적인 AI모델로 고해상도 컴퓨터 비전 속도 향상
MIT-IBM 왓슨 AI 연구소, 의미 분할 모델을 위한 새로운 빌딩 블록 설계
2023-10-02 온라인기사  / 윤범진 기자_bjyun@autoelectronics.co.kr

자율주행 차량은 강력한 컴퓨터 비전 모델을 사용하여 주변 고해상도 이미지를 픽셀별로 분류할 수 있기 때문에 저해상도 이미지에서는 식별할 수 없는 물체를 인지할 수 있다. 그러나 의미 분할(Semantic segmentation)이라고 하는 이 기술은 복잡하고 이미지의 해상도가 높을수록 엄청난 양의 계산이 필요하다. 

최근 MIT-IBM 왓슨 AI 연구소의 연구진이 자율주행 차량이 주변 환경을 인식하고 상호작용하는 방식을 혁신할 수 있는 보다 효율적인 컴퓨터 비전 모델을 개발했다고 MIT News가 보도했다.

연구진에 따르면, 이 모델은 자율주행 차량이 순간적으로 결정을 내릴 수 있도록 지원하는 온보드 컴퓨터와 같이 하드웨어 자원이 제한된 기기에서 실시간으로 의미 분할을 정확하게 수행한다.

의미 분할은 딥러닝 알고리즘이 이미지 내의 모든 픽셀에 레이블 또는 카테고리를 할당하는 프로세스이다. 자율주행 차량의 경우, 의미 분할은 도로에서 마주치는 물체를 실시간으로 정확하게 식별하고 분류하는 것을 의미한다. 

기존의 의미 분할 모델의 단점은 이미지 해상도가 증가할수록 계산 강도가 높아진다는 점이다. 이러한 모델은 이미지의 각 픽셀 쌍 간의 상호작용을 직접 학습하기 때문에, 이미지의 해상도가 증가함에 따라 계산 복잡도도 제곱으로 증가한다. 

이러한 모델은 정확하지만 센서나 휴대폰 등 에지 기기에서 고해상도 이미지를 실시간으로 처리하기에는 속도가 너무 느리다. 

이 문제를 해결하기 위해, MIT 연구진은 선형적으로 증가하는 계산 복잡도와 하드웨어 효율적인 연산만으로 동일한 기능을 수행하는 의미 분할 모델을 위한 새로운 빌딩 블록을 설계했다.
 


고해상도 컴퓨터 비전을 위한 머신러닝 모델은 에지 기기에서 자율주행이나 의료 이미지 분할과 같은
계산 집약적인 비전 애플리케이션을 구현할 수 있다.   (이미지: MIT News)

 

EfficientViT로 알려진 이 기술은 원래 이미지 패치를 토큰으로 인코딩하고 문맥을 이해하기 위한 집중 지도(attention map)를 생성하는 자연어 처리(Natural Language Processing, NLP)를 위해 개발된 비전 트랜스포머(vision transformer) 모델을 활용한다. 

MIT 연구진은 EfficientViT에서 비선형 유사도 함수(nonlinear similarity function)를 선형 유사도 함수로 대체하는 더 간단한 메커니즘을 사용하여 집중 지도를 생성했다. 따라서 기능 변경이나 전역 수용 영역(global receptive field)을 잃지 않고도 연산 순서를 재정렬하여 총계산량을 줄일 수 있다. 이 모델을 사용하면 이미지 해상도가 높아짐에 따라 예측에 필요한 계산량이 선형적으로 증가한다. 

반면, 선형 집중(linear attention)은 이미지에 대한 전역 문맥(global context)만 포착하기 때문에 지역 정보(local information)가 소실되어 정확도가 떨어진다. 연구진은 이러한 정확도 손실을 보완하기 위해 모델에 두 가지 빌딩 블록을 추가했다. 그중 하나는 모델이 지역 특징 상호작용(feature interactions)을 포착하는 것을 도와 지역 정보 추출에서 선형 함수의 약점을 완화한다. 또 하나는 멀티스케일 학습을 가능하게 하는 모듈로, 모델이 크고 작은 물체를 모두 인식할 수 있도록 도와준다. 

결과적으로 하드웨어 친화적인 아키텍처를 갖춘 EfficientViT는 가상현실(VR) 헤드셋이나 자율주행 차량의 에지 컴퓨터와 같은 다양한 유형의 기기에 적용할 수 있다. 

의미 분할을 위해 데이터 셋을 사용한 모델 테스트에서, EfficientViT는 엔비디아 GPU에서 널리 사용되는 다른 비전 트랜스포머 모델보다 최대 9배 빠른 성능과 동일하거나 더 나은 정확도를 나타냈다.

연구진은 이번 결과를 바탕으로 새로운 이미지를 생성하는 데 사용되는 생성형 머신 러닝 모델의 속도를 높이는데 이 기술을 적용할 계획이다. 또한, 다른 비전 작업에도 EfficientViT를 계속 확장해 나갈 계획이다.

 



AEM_Automotive Electronics Magazine


<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>


  • 100자평 쓰기
  • 로그인


  • 세미나/교육/전시

TOP