Skip to main content

INCL과 스팟 인스턴스

warning

빠른 공유를 위한 번역 및 축약본입니다. 원본

INCL 배포 후 GPU 사용이 급증했다. 효율성은 입증됐지만 비용 압박이 심해져 스팟 인스턴스 활용으로 절감이 필수적이다.

스팟 인스턴스란 무엇인가?

스팟 인스턴스는 남는 계산 용량을 온디맨드 대비 60-91 % 저가에 제공한다. 단, 수요 급등 시 언제든 종료될 수 있어 가용성은 보장되지 않는다. 중단, 재개가 용이한 딥러닝 작업에 적합하지만, 선점 후 복구 과정이 복잡하다.

INCL이 훈련을 위해 스팟 인스턴스를 활용하는 방법

INCL은 선점 감지 후 자동으로 훈련을 이어서 수행해 수동 개입을 없앤다.

  1. 선점 감지. 클라우드가 수요 급증을 감지하면 인스턴스 종료를 시작한다.
  2. 종료 보고. VM의 셧다운 스크립트가 선점을 백엔드에 알린다.
  3. 인스턴스 유형 결정. 선점률, 정책을 참고해 새 스팟 또는 온디맨드 선택.
  4. 재프로비저닝. 선택된 유형으로 VM을 다시 만들고 기존 부트 디스크를 재사용.
  5. 작업 재개. 체크포인트 복원 없이 즉시 훈련을 이어간다.
  6. 정리. 완료 후 불필요해진 디스크를 INCL이 자동 삭제한다.

스팟 인스턴스 활용 시 도전 과제

스팟 인스턴스는 비용을 낮추지만 선점 루프와 분산 학습 복구가 어렵다.

무한 선점 루프 방지

INCL은 기본적으로 스팟을 쓰되 선점이 반복되면 온디맨드로 전환한다. 시스템은 선점 이력 데이터를 바탕으로 시점을 판단하며, 정책은 지속적으로 업데이트돼 변동하는 선점 패턴에 대응한다.

분산 학습 환경에서 다중 노드 훈련 재개

마스터, 자식 노드 중 어느 하나가 선점되면 INCL이 새 노드를 즉시 프로비저닝하고 주소를 갱신해 전체 노드의 훈련을 자동으로 재시작한다. 여러 노드가 동시에 선점돼도 복원 순서를 조율해 중단 시간을 최소화한다.

Links to This Note