InfinitiBand 오류

안녕하세요

InfinitiBand 관련하여 질문 드립니다.

https://help.elice.io/help/docs/eci/screens/compute/compute-virtual-clusters
위 메뉴얼 대로 가상 클러스터 할당하였고(클러스터 목록 탭에서 클러스터 상태가 ‘할당됨’ 으로 표시 이후 가상머신 실행)

https://help.elice.io/help/docs/eci/tutorials/infiniband
위 튜토리얼 대로 ib_send_bw가 되는 것도 확인하였습니다.

그런데 NCCL을 시도하면
이런 에러가 뜨면서 중단되거나

Last error: NET/IB : Got completion from peer {ip주소}<34540> with status=5 opcode=0 len=0 vendor err 249 (Recv)

ncclRemoteError: A call failed possibly due to a network error or a remote process exiting prematurely.

이런 에러가 뜨면서 멈춰 있습니다.

”[2025-11-24 01:28:33] cloud-nJGOJY:94429:96574 [0] transport/net_ib.cc:199 NCCL WARN NET/IB : mlx5_3:1 Got async error event: port error”

환경 설정이 뭐가 덜 되었나 싶어서 환경 변수 엄청 바꿔봤는데 다 안되고 InfinitiBand 아예 끄는 설정일 때만 통하네요

export NCCL_IB_DISABLE
export NCCL_IB_HCA
export NCCL_IB_GID_INDEX
export NCCL_P2P_DISABLE

등등….

네트워크 문제인지… RDMA 설정 문제인지… IB 처음 써봐서 제가 뭔가 잘못하고 있는건지…ib_send_bw는 되는데 NCCL에서는 ib가 안 될 수도 있나요?

감사합니다.

pkey index 가 잘못 설정된 것으로 보입니다.

for f in /sys/class/infiniband/mlx5_3/ports/1/pkeys/*; do
    v=$(cat "$f")
    if [ "$v" != "0x0000" ]; then
        echo "$(basename $f): $v"
    fi
done

위 명령으로 0x7fff가 아닌 pkey가 설정된 index를 확인하고 NCCL_IB_PKEY를 해당 index로 설정합니다.