HPC 클라우드 도입을 통해 자동차 기업들은 기존 자원의 한계에서 벗어나 연구개발 속도를 향상시킴과 동시에 제품개발에 소요되는 비용을 절감하고 신제품 출시를 앞당길 수 있다. HPC 클라우드 플랫폼을 도입할 경우 SaaS 플랫폼으로 제공돼 자체 HPC 구축 시와 다르게 전담 인력의 확보가 불필요하고 IT 부서원 혹은 연구원이 간단한 관리자 교육 이수만으로 HPC 클라우드 플랫폼의 관리가 가능하다.
글 | 김정훈 CSE, Rescale _ junghoon@rescale.com
그림 1 | 미국 오크리지국립연구소의 슈퍼컴퓨터 서밋(Summit)
4차 산업혁명 시대가 도래하면서 인공지능 개발, 빅데이터 분석 등 연구개발에 요구되는 연산 자원이 폭발적으로 증가하고 있으며 주요 국가에서는 이에 대응하기 위하여 High Performance Computing(이하 HPC)을 연구개발 경쟁의 핵심요소로 인식하고 지속적인 기술력을 확보함과 동시에 신규 인프라 구축에 대규모 투자를 하고 있다.
기업들 또한 제품의 생산 및 품질 관리까지 전 과정에 걸쳐 데이터를 수집하고 이에 기반한 인공지능 개발, 빅데이터 분석 등을 활용한 연구개발 프로세스 혁신에 관심을 갖고 있다. 이외에 기업에서는 이전부터 활용해오던 제품 설계 및 검증 단계에서 구조해석, 열/유동해석 등 다양한 시뮬레이션 기술들의 활용도 높아지고 있다.
하지만 일부 기업을 제외하면 자체적인 HPC 인프라를 구축해 활용하는 경우는 많지 않으며, 특히 기업, 연구 조직 규모가 작을수록 HPC가 아닌 워크스테이션만 활용하는 경우가 많다. 그 이유는 다음과 같다.
첫째는 계산 규모가 작고 복잡성도 간단한 분야에서 작업을 수행하기 때문이며, 둘째는 실제 HPC를 제대로 활용하기 위한 전담 인력의 확보와 지속적인 투자가 필요하기 때문이다. 특히 지속적인 투자와 관련해서 초기 구축 시 워크스테이션 대비 큰 비용을 한 번에 투자해야 하는데, 이런 비용에 대해 기업 이익에 가져올 수 있는 효과를 정량적으로 추정하기 어렵기 때문이다.
또, 자체적으로 HPC 인프라를 구축해 활용하는 경우도 다른 한계점이 존재하는데, 일시적 혹은 지속적으로 증가하는 계산 부하에 유연하게 대응하거나 워크로드별로 요구되는 연산 성능에 맞춰 다양한 구성으로 구축하는 것도 현실적으로 어려움이 많다.
계산 부하가 일시적으로 증가하는 경우의 예시로 아래와 같이 기업 내 일부 부서에서 특정 기간 동안에만 계산 부하가 집중되는 경우 기업의 HPC 인프라 구축 시 해당 부서의 사용량을 결정하기 어렵다. 만약 최대 사용량을 기준으로 할 경우 불필요한 유휴 자원이 발생하게 되며, 낮은 사용량을 기준으로 할 경우 계산 부하 증가 시 대기 시간이 발생하거나 다른 부서와 자원 활용에 대한 우선 순위 변경이 필요한 상황이 발생하기 때문이다(그림 2).
그림 2 | 2021년 6월 한 달 동안 Rescale 고객 중 한 기업의 계산 자원 활용 이력
HPC 클라우드
기업 및 연구기관에서 경쟁력 강화를 위해 HPC 활용은 필수적이나 앞서 설명한 내용과 같이 여러 가지 이유로 어려움을 겪고 있는 상황이다. 이런 상황에서 클라우드를 활용하면 상당 부분을 해결할 수 있는데 그 이유는 다음과 같다.
첫째, 별도의 구축 기간이 소요되지 않으며 필요한 시기에 필요한 만큼의 연산 자원을 활용 가능하다. 아래 그림과 같이 자체적으로 HPC 인프라를 구축하는 경우 구성 부품의 수급 상황 및 각종 소프트웨어 설정에 기간에 따라 일반적으로 6개월에서 1년 정도의 기간이 필요하나 SaaS 플랫폼으로 구축된 Rescale의 HPC 클라우드 플랫폼을 도입할 경우 즉시 활용 가능하며 이를 통해 연구개발 프로젝트의 기간도 단축할 수 있다(그림 3).
그림 3 | 자체 HPC 구축 대비 HPC 클라우드 활용 시의 장점
둘째, 다양한 종류의 사양으로 구성돼 HPC 워크로드별로 최적의 연산 자원을 선택할 수 있다. 클라우드 공급 업체마다 HPC 워크로드별로 적절한 연산 자원을 확보하고 있어 적절한 성능의 연산 자원을 활용할 수 있다. 다만 업체별도 중점적으로 투자하는 워크로드가 다르기 때문에 단일 클라우드 공급 업체만을 사용하는 경우 그림 4와 같이 각 워크로드에 최적인 성능의 하드웨어를 활용하는 것은 제한될 수 있기 때문에, Rescale의 HPC 클라우드 플랫폼을 활용할 경우 단일 플랫폼에서 다양한 클라우드 공급 업체의 연산 자원을 자유롭게 활용할 수 있다.
마지막으로 자체 구축 HPC보다 훨씬 빠른 주기로 새로운 연산 자원이 플랫폼에 도입되기 때문이다. 일반적으로 자체 구축 HPC 인프라의 경우 짧게는 5년 길게는 7년 주기로 교체되는데 다음 교체 주기가 도래하기 전까지는 일정한 성능의 연산 자원만을 활용할 수 있다. Rescale의 HPC 클라우드 플랫폼을 활용하면 지속적으로 도입되는 최신 사양의 연산 자원을 활용해 연구개발에 필요한 각종 연산을 신속하게 수행할 수 있다(그림 5).
그림 4 | 워크로드별/클라우드 공급 업체별 성능 지표
그림 5 | 도입 시기별 연산 자원의 성능 가치 - Data Center는 자체 구축 HPC를 의미
Rescale의 HPC 클라우드 플랫폼과
고객 성공사례
Rescale의 HPC 클라우드 플랫폼은 HPC 인프라에 필요한 모든 구성 요소들을 포함하며 SaaS 플랫폼으로 구축돼 있어 별도의 설치 없이 다양한 소프트웨어와 여러 클라우드 공급 업체의 하드웨어들을 활용할 수 있다(그림 6).
그림 6 | Rescale의 인텔리전트 컴퓨팅 플랫폼
아울러 기존에 자체적으로 구축한 HPC 인프라와의 하이브리드로 구성할 수 있고 기업 및 연구소에서 자체 개발한 계산 코드 또한 손쉽게 설치할 수 있으므로 비용 효율적으로 클라우드를 활용할 수 있다.
부가적으로 최근 일부 상용 시뮬레이션 소프트웨어들의 경우 시간제 라이센스 방식을 제공하는데, 이와 함께 필요한 자원을 원하는 만큼 활용할 수 있는 HPC 클라우드의 장점이 합쳐지면 연구개발에 필요한 시뮬레이션 속도를 극대화할 수 있으며, 지속적으로 도입되는 최신 사양의 하드웨어를 이용하면 전체 소요 비용 또한 절감할 수 있다.
다음은 Rescale의 HPC 클라우드 플랫폼 도입을 통해 좋은 결과를 얻은 닛산(Nissan)의 사례다(그림 7, 8). 닛산의 경우 풍부한 HPC 인프라를 구축해 사용 중이었으나, 기존 소프트웨어 라이센스 수량 부족으로 시간제 라이센스를 사용하며서 평균적으로 2~3일의 작업 대기기간이 있어 시뮬레이션을 통한 설계 검증의 지연으로 개발 프로세스가 비효율적으로 진행되고 있었다.
그런 상황에서 연산 자원을 보다 탄력적으로 활용할 수 있는 HPC 클라우드를 도입한 후 작업 대기기간 없이 시뮬레이션을 수행할 수 있었고, 기존 HPC 대비 고성능의 자원을 활용함에 따라 시뮬레이션 속도가 향상되어 시간제 라이센스의 사용량이 줄어들어 HPC 총 운용 비용 절감이 가능했다. HPC 클라우드 도입 1년 후 일시적으로 하드웨어 비용이 증가했지만 이후 지속적으로 도입되는 고성능 하드웨어를 사용함에 따라 계산 시간이 줄어들게 되고 그에 따라 소프트웨어 라이센스 비용과 클라우드 사용 비용 또한 줄어 2년 후 총 운용 비용의 30%를 절감할 수 있었다.
그림 7 | HPC 클라우드 도입 이후 4년간 총비용 예상
그림 8 | HPC 클라우드 도입 2년간 총비용 변화
닛산의 사례에서 볼 수 있듯이, HPC 클라우드 도입을 통해 기업들은 기존 자원의 한계에서 벗어나 연구개발 속도를 향상시킴과 동시에 제품개발에 소요되는 비용을 절감하고 신제품 출시를 앞당길 수 있다.
또 Rescale의 HPC 클라우드 플랫폼을 도입할 경우 SaaS 플랫폼으로 제공돼 자체 HPC 구축 시와 다르게 전담 인력의 확보가 불필요하며 IT 부서원 혹은 연구원이 간단한 관리자 교육 이수만으로 HPC 클라우드 플랫폼의 관리가 가능하다.
<저작권자 © AEM. 무단전재 및 재배포, AI학습 이용 금지>