재부팅 이후 nvidia-smi 가 조회되지 않는 현상은, VM 내부 Ubuntu 커널 버전이 변경되면서 드물게 발생합니다.
일반적으로 VM 내에서 apt-get으로 패키지를 업데이트하는 과정이나, 우분투의 자동 보안 업데이트(unattended-upgrades)에 의해 커널 패키지가 함께 갱신될 수 있습니다. 새 커널은 재부팅 시 적용되기 때문에, 재부팅 후 커널 버전이 달라진 것처럼 보일 수 있습니다.
커널이 변경되면 dkms가 해당 커널 버전에 맞춰 nvidia, mlnx-ofed 등 커널 의존 드라이버를 자동으로 재빌드하도록 구성되어 있습니다. 그러나 이 빌드 과정이 apt-get 수행 중 세션 종료·예기치 못한 재부팅 등으로 중간에 끊기면, 새 커널 환경에서 일부 드라이버 모듈이 정상 로드되지 않아 nvidia-smi 조회가 되지 않는 상황이 발생할 수 있습니다.
위와 같은 상황에서 다음과 같은 조치를 권장 드립니다.
- 재부팅 후 드라이버 인식 문제 발생 시 아래의 명령으로 실패한 드라이버 빌드가 가능합니다.
sudo dkms autoinstall apt-get실행 시 세션 종료로 인한 중단을 방지하기 위해, tmux 등 세션과 분리된 환경에서 명령을 수행 바랍니다.- 우분투의 자동 커널 업데이트를 비활성화하려면 아래의 명령어를 실행 부탁드립니다.
sudo apt remove unattended-upgrades