모델을 Huggingface Hub에서 직접 컴파일 하는 기능은 아직 실험적 기능으로 지원 모델에 제한이 있는 상황입니다. 현재는 GPT-J, Llama 모델을 직접 양자화 부터 컴파일 하실 수 있습니다. 가이드에 이런 제약이 상세하게 설명되어 있지 않은 것 같아 불편함 드려 죄송합니다. 이 제약 사항에 대해 상세하게 문서를 업데이트 하도록 하겠습니다.
참고로, 릴리즈와 함께 제공드린 bert prebuilt 바이너리 를 우선 사용해주실 수 있으실까요? 현시점에는 내부적으로 사용하는 API로 pre-built artifact로 전달 드릴 수 있지만 Bert의 경우 직접 사용자가 양자화를 통해 컴파일 하도록 제공되는 기능은 향후 릴리즈에 계획되어있습니다.
2025.2 에서 제공될 예정인 torch.compile() 백앤드를 통해 generative model 이 아닌 BF16 embedding 모델들은 컴파일 하실 수 있게 될 예정이며, Bert를 직접 양자화 하는 기능은 내부적으로 일정이 확정되는대로 업데이트 드리겠습니다.
위에서 제공해주신 file을 압축해제한 pre-built model들을 그래로 사용하여 MLPerf를 실행하는 과정에서 다음과 같은 에러가 발생합니다. 해당 에러가 발생하는 원인에 대해서 문의드리고자 합니다.
thread '<unnamed>' panicked at /root/.cache/cargo/git/checkouts/device-runtime-1a978526922f1a45/de20a9f/furiosa-hal2/src/physical/mgmt/mod.rs:45:9:
not yet implemented: How to open mgmt device for Warboy?
note: run with `RUST_BACKTRACE=1` environment variable to display a backtrace
Error: device error: receiving on an empty and disconnected channel
Caused by:
receiving on an empty and disconnected channel
Location:
furiosa-mlperf/src/lib.rs:309:25
아래는 제 환경입니다.
$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description: Ubuntu 22.04.5 LTS
Release: 22.04
Codename: jammy