안녕하세요
InfinitiBand 관련하여 질문 드립니다.
https://help.elice.io/help/docs/eci/screens/compute/compute-virtual-clusters
위 메뉴얼 대로 가상 클러스터 할당하였고(클러스터 목록 탭에서 클러스터 상태가 ‘할당됨’ 으로 표시 이후 가상머신 실행)
https://help.elice.io/help/docs/eci/tutorials/infiniband
위 튜토리얼 대로 ib_send_bw가 되는 것도 확인하였습니다.
그런데 NCCL을 시도하면
이런 에러가 뜨면서 중단되거나
Last error: NET/IB : Got completion from peer {ip주소}<34540> with status=5 opcode=0 len=0 vendor err 249 (Recv)
…
ncclRemoteError: A call failed possibly due to a network error or a remote process exiting prematurely.
이런 에러가 뜨면서 멈춰 있습니다.
”[2025-11-24 01:28:33] cloud-nJGOJY:94429:96574 [0] transport/net_ib.cc:199 NCCL WARN NET/IB : mlx5_3:1 Got async error event: port error”
환경 설정이 뭐가 덜 되었나 싶어서 환경 변수 엄청 바꿔봤는데 다 안되고 InfinitiBand 아예 끄는 설정일 때만 통하네요
export NCCL_IB_DISABLE
export NCCL_IB_HCA
export NCCL_IB_GID_INDEX
export NCCL_P2P_DISABLE등등….
네트워크 문제인지… RDMA 설정 문제인지… IB 처음 써봐서 제가 뭔가 잘못하고 있는건지…ib_send_bw는 되는데 NCCL에서는 ib가 안 될 수도 있나요?
감사합니다.