레니게이드 LLM NPU connection timeout 에러

nopro · November 5, 2024, 5:53am

안녕하세요.
레니게이드 2개를 이용해서 Llama-3.1-8B-Instruct 모델을 사용하려고 합니다.
이 링크에 있는 코드를 그대로 사용했습니다.
근데 실행하면 Npu(NpuError { source: Io(Os { code: 110, kind: TimedOut, message: "Connection timed out" }), 에러가 발생하는데 원인과 해결책을 알 수 있을까요?

nopro · November 5, 2024, 7:13am

llm = LLM(model="meta-llama/Meta-Llama-3.1-8B-Instruct", paged_attention_num_blocks=4)

이렇게 하면 아래와 같은 에러가 발생합니다. 모델을 다운받는 방법이 따로 있나요? 문서에서는 보지 못했습니다

NoSuchPathError: /home/elicer/anaconda3/envs/renegade/lib/python3.10/furiosa-llm-models

jongwook.kim · November 5, 2024, 8:21am

안녕하세요, 퓨리오사에이아이 김종욱입니다.

메일을 통해 아티팩트 전달드렸습니다.

nopro · November 5, 2024, 8:39am

아티펙트 잘 받았었고, 주신 아티팩트로 실행했을 때 connection timeout 에러가 발생했습니다.
문서에 있는 코드를 그대로 활용했습니다

path = "./Llama-3.1-8B-Instruct"
llm = LLM.from_artifacts(path)

# You can specify various parameters for text generation
sampling_params = SamplingParams(min_tokens=10, top_p=0.3, top_k=100)

# Generate text
prompts = ["Say this is test"]
response = llm.generate(prompts, sampling_params)

# Print outputs
print(response[0].outputs[0].text)

jongwook.kim · November 5, 2024, 8:53am

아래 명령어를 통해 설치되어 있는 패키지 버전을 확인할 수 있을까요?

apt list | grep furiosa

nopro · November 5, 2024, 9:04am

명령어 실행결과입니다

jongwook.kim · November 5, 2024, 10:16am

sudo furiosa_pert_deploy -A 명령어 실행후, 테스트 해보실 수 있으실까요?

만약 이후에도 에러가 발생하는 경우, 아래 명령어의 결과를 공유주시면 도움이 될 것 같습니다.

sudo cat /sys/kernel/debug/rngd/mgmt0/pe_log

nopro · November 5, 2024, 10:51am

말씀해주신 명령어로 하니까 잘 되네요.
근데 주피터노트북에서 두 번 연속으로 실행하면 에러가 발생하고 매번 커널 재시작해야 잘 나옵니다.

접속 환경을 메일로 드리면 될까요?

jongwook.kim · November 5, 2024, 11:14am

접속환경의 경우 문제의 원인(간혹 pert deploy가 제대로 로드가 안되는 문제)은 파악이 되어서 괜찮을 것 같습니다.
우선 위의 문제는 한 두 릴리즈 내에 픽스가 될 예정입니다.

주피터 노트북에서 두 번 연속으로 실행한다는 것이 어떻게 되는 건지 알 수 있을까요? 파이썬 파일을 직접 실행하면 문제가 없는지도 궁금합니다.

nopro · November 5, 2024, 11:45am

주피터 노트북 얘기는, 셀을 한번 실행시킨 후 다시 실행시켰을 때를 말한거였습니다.
파이썬 파일로 테스트했을 때 아래 에러가 발생합니다. furiosa_pert_deploy를 실행한 후에 해도 같은 에러가 발생합니다.
ValueError: device error: EFAULT: Bad address

jongwook.kim · November 5, 2024, 12:33pm

음…혹시 메일로 접속 환경 공유받을 수 있을까요? 접속해서 살펴보아야할 것 같습니다.

nopro · November 6, 2024, 1:32am

메일로 공유드렸습니다. 확인부탁드립니다

nopro · November 6, 2024, 1:39am

보안때문에 pem 키파일을 보낼 수가 없네요. 혹시 다른 방법으로 공유드릴 수 있나요?

jongwook.kim · November 6, 2024, 2:08am

discouse 채팅기능으로 공유받으면 될 것 같습니다.

nopro · November 6, 2024, 2:16am

여기에서도 pem 키 파일 첨부가 안됩니다

jongwook.kim · November 6, 2024, 4:22am

안녕하세요, 문제의 원인을 확인해서 내용 공유드립니다.

해당문제의 원인은 쥬피터노트북에서 LLM.from_artifacts를 여러번 호출하는 경우
이미 이전 셀에서 장치가 아티팩트에 마운트되어 있는 상황에서 또 마운트하는 상황이 되게 됩니다.

그래서 에러가 발생하는 것을 확인하였습니다.
그래서 실행을 나눠서 작업을 하시면 될 것 같습니다.

예를 들어서 첫번째 셀에서 아래와 같이 실행후

from furiosa_llm import LLM, SamplingParams

# Loading an artifact of Llama 3.1 8B Instruct model
path = "./Llama-3.1-8B-Instruct"
llm = LLM.from_artifacts(path)

# You can specify various parameters for text generation
sampling_params = SamplingParams(min_tokens=10, top_p=0.3, top_k=100)

다음셀에서 부터 prompt를 넣어서 실행하는 코드를 여러번 호출하면 되는 것으로 확인했습니다.

nopro · November 6, 2024, 4:46am

감사합니다
python파일로 실행이 안되는 원인도 알 수있을까요

jongwook.kim · November 6, 2024, 4:56am

cmd창에서 python [파이썬 파일]을 반복적으로 실행하는 경우는 문제 없이 동작을 하는 것을 확인했었는데 이 경우를 말씀하시는 것일까요…?

아니면 notebook으로 실행후, cmd 창에서 python [파이썬 파일] 이 안되는 경우라면 아마 위와 같은 상황(이미 장치를 런타임에서 물고있는 경우)으로 생각됩니다.

nopro · November 6, 2024, 5:10am

아 그랬던거 같네요. 잘 동작합니다. 감사합니다!
혹시 Llama 70B 등등 다른 아티펙트들을 다운받을 수 있는 사이트가 있나요?

nopro · November 6, 2024, 5:11am

그리고 현재는 아티펙트로만 실행시킬 수 있는 건가요? 허깅페이스에서 양자화된 모델을 다운받아서 사용할 순 없나요?

Topic		Replies	Views
현재 llm 지원 list 같은거 좀 공지사항에 실시간으로 업데이트 좀 올려주시면 좋겠습니다 한국어 (Korean) sdk , rngd	1	185	April 3, 2025
Rngd 아티팩트 빌드 관련 질문 일반	1	82	January 22, 2025
Npu eval과정에서의 에러 문의 일반 sdk	6	239	October 20, 2023
NPU에서의 다중 모델 load, activation에 따른 성능 관련 문의 일반	4	202	September 15, 2023
Yolo 모델 추론 코드 관련 일반	1	153	July 26, 2024

레니게이드 LLM NPU connection timeout 에러

Related topics