Rngd 아티팩트 빌드 관련 질문

안녕하세요.

질문 1. 아티팩트 빌드 문제

RNGD 하나를 사용하여 이 링크 에 있는 코드를 실행하려고 합니다.

그런데 furiosa-llm.artifact.builder API를 사용해서 빌드한 아티팩트만 실행가능한 것으로 보입니다. 따라서 이 링크에 있는 코드를 그대로 사용해서 빌드를 시도했습니다.

HuggingFace의 Llama-3.1-8B-Instruct 모델의 config.json을 보면 BF16을 사용하는 것으로 보입니다. BF16을 사용하는 모델의 경우 Quantization 및 Calibration을 생략할 수 있다고 하여 해당 과정은 생략했습니다. save_dir 대신에 model_id를 넣었습니다.

그 때 아래와 같은 에러가 발생합니다.

INFO:2025-01-21 16:13:13+0900 Failed to get parameter file from cache for model Meta-Llama-3.1-8B-Instruct_32L_furiosa_llm_models.llama3.symbolic.mlperf_submission
Loading checkpoint shards:  50%|████████████████████████████████████████████████████████████████████████████                                                                            | 2/4 [00:03<00:03,  1.74s/it]Killed

아래는 사용 중인 환경입니다.

$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 22.04.5 LTS
Release:        22.04
Codename:       jammy
$ apt list | grep furiosa

WARNING: apt does not have a stable CLI interface. Use with caution in scripts.

furiosa-compiler/jammy,now 2024.2.0-3 amd64 [installed]
furiosa-driver-rngd-vf/jammy 2024.2.1-3 amd64
furiosa-driver-rngd/jammy,now 2024.2.1-3 amd64 [installed]
furiosa-firmware-image-rngd/jammy,now 2024.2.0 amd64 [installed]
furiosa-firmware-tools-rngd/jammy,now 2024.2.1-3 amd64 [installed]
furiosa-libsmi/jammy,now 2024.2.0-3 amd64 [installed,automatic]
furiosa-mlperf-resources/jammy,now 4.1.0 amd64 [installed,automatic]
furiosa-mlperf/jammy,now 2024.2.1-3 amd64 [installed]
furiosa-pert-rngd/jammy,now 2024.2.1-3 amd64 [installed]
furiosa-smi/jammy,now 2024.2.0-3 amd64 [installed]
$ furiosa-smi info
+------+--------+------------------+------------------+---------+---------+--------------+
| Arch | Device | Firmware         | PERT             | Temp.   | Power   | PCI-BDF      |
+------+--------+------------------+------------------+---------+---------+--------------+
| rngd | npu0   | 2024.2.0+7a11888 | 2024.2.1+de20a9f | 39.82°C | 33.00 W | 0000:2d:00.0 |
+------+--------+------------------+------------------+---------+---------+--------------+
$ pip3 freeze | grep torch
furiosa-torch-ext==2024.2.0
torch==2.4.1+cpu
torchaudio==2.4.1+cpu
torchvision==0.19.1+cpu
$ pip3 freeze | grep furiosa
furiosa-llm==2024.2.1
furiosa-llm-models==2024.2.0
furiosa-model-compressor==2024.2.0
furiosa-model-compressor-impl==2024.2.0
furiosa-native-compiler==2024.2.0
furiosa-native-runtime==2024.2.1
furiosa-smi-py==2024.2.0
furiosa-torch-ext==2024.2.0
$ python3 --version
Python 3.10.12

제가 뭔가 놓친 것이 있을까요?

안녕하세요?

우선 불편함 드려 죄송합니다. BF16은 바로 실행할 수 있는 기능은 죄송하지만 지난 릴리즈에서 누락되었습니다. 문서에서 해당 부분이 반영되지 못한것으로 문서는 바로 업데이트 하도록 하겠습니다. 같이 전달 받으신 llama bf16 pre-built artifact 를 사용하셔야 하거나 적절한 양자화 과정을 거쳐야 합니다. 혹시 pre-built artifact가 없으시다면 제가 관련 가이드를 전달 드리겠습니다.

추가로 bf16 모델을 양자화 없이 바로 실행할 수 있는 기능은 2월 릴리즈에 포함될 예정입니다.