안녕하세요.
ETRI 고성능컴퓨팅시스템연구실 박경서입니다.
현재 Furiosa NPU 4개를 사용 중인데, 실험을 수행하다가 아래와 같이 NPU 한 개가 시스템에서 인식되지 않는 문제가 발생했습니다.
이 상태에서 NPU 기반 추론 작업을 수행하면 오류가 발생합니다.
이와 같은 상황에서 어떤 방식으로 문제를 진단하고 해결해야 하는지 안내 부탁드립니다.
현재 Container를 대여하여 사용 중인 환경입니다.
안녕하세요.
ETRI 고성능컴퓨팅시스템연구실 박경서입니다.
현재 Furiosa NPU 4개를 사용 중인데, 실험을 수행하다가 아래와 같이 NPU 한 개가 시스템에서 인식되지 않는 문제가 발생했습니다.
이 상태에서 NPU 기반 추론 작업을 수행하면 오류가 발생합니다.
이와 같은 상황에서 어떤 방식으로 문제를 진단하고 해결해야 하는지 안내 부탁드립니다.
현재 Container를 대여하여 사용 중인 환경입니다.
안녕하세요,
이번주에 koni와 llama 모델을 furiosa-llm으로 실행하실 수 있도록 나간것으로 알고 있는데, 혹시 인식이 안되는 문제가 발생하기 전 어떤 작업을 실행 중이셨는지 알 수 있을까요?
감사합니다.
2일간 llama 모델에 대한 컴파일과 npu 하나에 대한 서빙 작업을 수행하였습니다. 이후 3일째 아침에 다시 접속하였을 때, 위와 같은 문제가 발생하였습니다.
현재는 대여 받은 NPU 서버에 접속하니 정상적으로 NPU 4개 활성화를 확인했습니다.
감사합니다.