Model preparation

MLPerf를 사용하여, BERT Large model의 inference를 테스트하기 위해 artifact를 build하는 과정에서

model_id = "google-bert/bert-large-uncased"

처럼 model_id를 설정하여 AritifactBuilder의 argument로 넘겨줄 시에 에러가 발생합니다.

model을 preparation하는 step에 대한 자세한 manual을 제공해주실 수 있으신지 문의드립니다.

안녕하세요?

모델을 Huggingface Hub에서 직접 컴파일 하는 기능은 아직 실험적 기능으로 지원 모델에 제한이 있는 상황입니다. 현재는 GPT-J, Llama 모델을 직접 양자화 부터 컴파일 하실 수 있습니다. 가이드에 이런 제약이 상세하게 설명되어 있지 않은 것 같아 불편함 드려 죄송합니다. 이 제약 사항에 대해 상세하게 문서를 업데이트 하도록 하겠습니다.

참고로, 릴리즈와 함께 제공드린 bert prebuilt 바이너리 를 우선 사용해주실 수 있으실까요? 현시점에는 내부적으로 사용하는 API로 pre-built artifact로 전달 드릴 수 있지만 Bert의 경우 직접 사용자가 양자화를 통해 컴파일 하도록 제공되는 기능은 향후 릴리즈에 계획되어있습니다.

2025.2 에서 제공될 예정인 torch.compile() 백앤드를 통해 generative model 이 아닌 BF16 embedding 모델들은 컴파일 하실 수 있게 될 예정이며, Bert를 직접 양자화 하는 기능은 내부적으로 일정이 확정되는대로 업데이트 드리겠습니다.

1 Like

답변 감사합니다.

다른 모델들의 prebuilt binary는 어디에서 접근할 수 있는지 문의드립니다.

안녕하세요, 퓨리오사에이아이 김종욱입니다.

GPT-J prebuilt 바이너리, LLaMa 3.1 8B (FP8) 에서 다운로드 받으실 수 있습니다.

위에서 제공해주신 file을 압축해제한 pre-built model들을 그래로 사용하여 MLPerf를 실행하는 과정에서 다음과 같은 에러가 발생합니다. 해당 에러가 발생하는 원인에 대해서 문의드리고자 합니다.

thread '<unnamed>' panicked at /root/.cache/cargo/git/checkouts/device-runtime-1a978526922f1a45/de20a9f/furiosa-hal2/src/physical/mgmt/mod.rs:45:9:
not yet implemented: How to open mgmt device for Warboy?
note: run with `RUST_BACKTRACE=1` environment variable to display a backtrace
Error: device error: receiving on an empty and disconnected channel

Caused by:
    receiving on an empty and disconnected channel

Location:
    furiosa-mlperf/src/lib.rs:309:25

아래는 제 환경입니다.

$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 22.04.5 LTS
Release:        22.04
Codename:       jammy
$ furiosa-smi info
+------+--------+------------------+------------------+---------+---------+--------------+
| Arch | Device | Firmware         | PERT             | Temp.   | Power   | PCI-BDF      |
+------+--------+------------------+------------------+---------+---------+--------------+
| rngd | npu0   | 2024.2.0+7a11888 | 2024.2.1+de20a9f | 38.70°C | 33.00 W | 0000:2d:00.0 |
+------+--------+------------------+------------------+---------+---------+--------------+

안녕하세요, 에러메시지로 보아 이전에 워보이가 설치되었던 서버였던 것으로 보이는데 맞을까요? 해결할 수 있을 것으로 생각되는 몇가지 방법 공유드립니다.

  1. apt purge를 통해 furiosa-driver-warboy를 삭제하고, furiosa-driver-rngd 재설치.
  2. 1의 방법이 되지 않는 경우, furiosa 그룹에 현재 유저 추가.
    sudo usermod -G furiosa -a [계정명]

만약 위 방법들로도 해결이 안되는 경우 알려주시면 감사드리겠습니다.

warboy를 설치한 서버는 아닙니다. 2번 방법으로 유저를 추가하고 나니 해결되었습니다.

답변 감사합니다.

리포트 주셔서 감사합니다. 위에 케이스는 에레 메시지로 부터 문제를 이해하시기 좋도록 개선해서 후속 릴리즈에 포함하도록 하겠습니다.

1 Like