Furiosa-llm 모델 로드 이슈

안녕하세요?

GPU에서 개발된 sLLM을 NPU 버전으로 포팅하고 있습니다.

지난번에 RNGD 환경설정 이슈는 CSP의 지원으로 furiosa-llm이 정상적으로 설치되었습니다.

furiosa-llm 2025.3.0
furiosa-llm-models 2025.3.0
furiosa-model-compressor 2025.3.0
furiosa-model-compressor-impl 2025.3.0
furiosa-models-lang 2025.3.0
furiosa-native-compiler 2025.3.0
furiosa-native-llm-common 2025.3.0
furiosa-native-runtime 2025.3.0
furiosa-smi-py 2025.3.0
furiosa-torch-ext 2025.3.0

furiosa-compiler v2025.3.0 (4467f6a699 2025-07-25T02:01:49Z)backend:

  • version: 2025.3.0
  • revision: 4467f6a699
  • built_at: 2025-07-25T02:01:49Zfrontend:
  • version: 2025.3.0
  • revision: 2414f915f
  • built_at: 2025-07-25T02:05:46Z

파인튜닝된 모델로 작업하기 전에 가이드에 나와 있는 방법대로 진행하기 위하여

아래의 URL을 참조하여 작업을 진행하고 있습니다.

에 나와 있는 내용대로 hugging face에 있는 llama 3.1 8b instruct model을 먼저 작업하려고 하였으나

load_artifacts() 메소드가 없다고 나오고 load_artifact()로 변경하여 진행하였으나

from furiosa_llm import LLM, SamplingParams

#Loading an artifact of Llama 3.1 8B Instruct model
path = “./llama-3.1-8b-instruct”
llm = LLM.load_artifact(path, devices=“npu:0:*”)

#You can specify various parameters for text generation
sampling_params = SamplingParams(min_tokens=10, top_p=0.3, top_k=100)

#Generate text
prompts = [“Say this is test”]
response = llm.generate(prompts, sampling_params)

#Print outputs
print(response[0].outputs[0].text)

아래와 같이 artifacts가 유효하지 않다고 메시지가 나오고 있습니다.

./llama-3.1-8b-instruct 폴더에는 meta-llama/Meta-Llama-3.1-8B-Instruct를 다운로드받은 폴더입니다.

Exception has occurred: ValueError

  • This artifacts is not valid.

    File “/home/elicer/workspaces/qickstart.py”, line 5, in llm = LLM.load_artifact(path, devices=“npu:0:*”) ValueError: This artifacts is not valid.

그래서 모델이 onnx 형태가 아니어서 그런가 고민을 하다가

에 있는 가장 간단한 코드인

# from transformers import AutoModelForCausalLM
from furiosa_llm.optimum import AutoModelForCausalLM, AutoTokenizer

config = AutoModelForCausalLM.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")

를 수행시켜도 아래와 같이 type 오류가 발생하고 있습니다..

제가 무엇을 잘못하고 있을까요? (참고로 hugging face에서 3.1 8b instruct 모델 16G는 정상적으로 다운로드 받은 상태입니다.)

2025.3.0 버전에 맞게 잘 돌아가는 예제가 따로 있는 것일까요?

기존에 개발된 sLLM을 NPU 버전에 맞게 포팅하기 위한 절차는 어떤 문서를 보고 진행해야 할까요?

기본 모델 수행을 확인하는 방법은 무엇일까요?

안녕하세요, 퓨리오사에이아이 김종욱입니다.
2025.3.0 문서가 나와 공유드립니다. LLM.load_artifact에서 furiosa-ai 허깅페이스에서 제공하는 모델을 바로 넣어주셔도 동작합니다.

다만, python 패키지 뿐만아니라 apt 패키지들도 2025.3.0 에 맞추어 업데이트를 진행해주셔야하며,
우선 CSP사에서 제공하고 있는 드라이버 및 펌웨어의 정보가 필요합니다. 드라이버 및 펌웨어의 경우 인스턴스 환경에서는 업데이트가 불가능하기 때문입니다.

따라서 관련한 환경 업데이트 문의는 클라우드 사에 연락드리면 될 것 같습니다.

최근에 드라이버와 펌웨어를 업데이트한 것으로 알고 있습니다.

관련된 내용을 확인해 보도록 하겠습니다.

감사합니다.