안녕하세요?
GPU에서 개발된 sLLM을 NPU 버전으로 포팅하고 있습니다.
지난번에 RNGD 환경설정 이슈는 CSP의 지원으로 furiosa-llm이 정상적으로 설치되었습니다.
furiosa-llm 2025.3.0
furiosa-llm-models 2025.3.0
furiosa-model-compressor 2025.3.0
furiosa-model-compressor-impl 2025.3.0
furiosa-models-lang 2025.3.0
furiosa-native-compiler 2025.3.0
furiosa-native-llm-common 2025.3.0
furiosa-native-runtime 2025.3.0
furiosa-smi-py 2025.3.0
furiosa-torch-ext 2025.3.0
furiosa-compiler v2025.3.0 (4467f6a699 2025-07-25T02:01:49Z)backend:
- version: 2025.3.0
- revision: 4467f6a699
- built_at: 2025-07-25T02:01:49Zfrontend:
- version: 2025.3.0
- revision: 2414f915f
- built_at: 2025-07-25T02:05:46Z
파인튜닝된 모델로 작업하기 전에 가이드에 나와 있는 방법대로 진행하기 위하여
아래의 URL을 참조하여 작업을 진행하고 있습니다.
에 나와 있는 내용대로 hugging face에 있는 llama 3.1 8b instruct model을 먼저 작업하려고 하였으나
load_artifacts() 메소드가 없다고 나오고 load_artifact()로 변경하여 진행하였으나
from furiosa_llm import LLM, SamplingParams
#Loading an artifact of Llama 3.1 8B Instruct model
path = “./llama-3.1-8b-instruct”
llm = LLM.load_artifact(path, devices=“npu:0:*”)#You can specify various parameters for text generation
sampling_params = SamplingParams(min_tokens=10, top_p=0.3, top_k=100)#Generate text
prompts = [“Say this is test”]
response = llm.generate(prompts, sampling_params)#Print outputs
print(response[0].outputs[0].text)
아래와 같이 artifacts가 유효하지 않다고 메시지가 나오고 있습니다.
./llama-3.1-8b-instruct 폴더에는 meta-llama/Meta-Llama-3.1-8B-Instruct를 다운로드받은 폴더입니다.
Exception has occurred: ValueError
This artifacts is not valid.
File “/home/elicer/workspaces/qickstart.py”, line 5, in llm = LLM.load_artifact(path, devices=“npu:0:*”) ValueError: This artifacts is not valid.
그래서 모델이 onnx 형태가 아니어서 그런가 고민을 하다가
에 있는 가장 간단한 코드인
# from transformers import AutoModelForCausalLM
from furiosa_llm.optimum import AutoModelForCausalLM, AutoTokenizer
config = AutoModelForCausalLM.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
를 수행시켜도 아래와 같이 type 오류가 발생하고 있습니다..
제가 무엇을 잘못하고 있을까요? (참고로 hugging face에서 3.1 8b instruct 모델 16G는 정상적으로 다운로드 받은 상태입니다.)
2025.3.0 버전에 맞게 잘 돌아가는 예제가 따로 있는 것일까요?
기존에 개발된 sLLM을 NPU 버전에 맞게 포팅하기 위한 절차는 어떤 문서를 보고 진행해야 할까요?
기본 모델 수행을 확인하는 방법은 무엇일까요?
