Furiosa SDK 2024.2.0 릴리스되었습니다. 2024.2.0은 RNGD를 위한 두 번째 메이저 SDK 릴리스입니다. 이번 릴리스는 새로운 모델 지원, 8K 컨텍스트 길이 지원, Tensor Parallelism 지원, PyTorch 2.4.1 업그레이드, Optimum API 지원, 성능 향상 등 많은 새로운 기능과 중요한 개선 사항을 포함하고 있습니다. 자세한 내용은 아래 주요 사항을 참고하세요. Furiosa 소프트웨어 스택을 업그레이드하려면 Upgrading Furiosa Software Stack 를 참고하시기 바랍니다.
주요 개선 사항
- 새로운 모델 지원: Solar, EXAONE-3.0, CodeLLaMA2, Vicuna 등
- 최대 8K 컨텍스트 길이 (<= 8192) 지원
- 텐서 병렬 처리 지원 (tensor_parallel_size <= 8)
- Torch 2.4.1 지원
- Transformers 4.44.2 지원
- Furiosa LLM 개선 사항
- ArtifactBuilder API 및 CLI 도구 지원 (ArtifactBuilder API)
- Huggingface Hub 모델로부터 Huggingface Transformers 호환 API를 통해 아티팩트를 빌드할 수 있습니다.
- Huggingface Transformers 호환 API 지원 (furiosa_llm.optimum)
- AutoModel, AutoModelForCausalLM, AutoModelForQuestionAnswering API
- QuantizerForCausalLM API를 통한 캘리브레이션 및 양자화 지원
- ArtifactBuilder API 및 CLI 도구 지원 (ArtifactBuilder API)
- LLMEngine, AsyncLLMEngine API 추가로 vLLM과 호환성 향상
- LlamaForCausalLM 기반 모델의 성능 약 20% 향상
- 예: 단일 RNGD 카드에서 LLaMA 3.1 8B 모델은 초당 3580 토큰 처리 가능
Breaking Change
LLM.from_artifacts()
API는 더 이상 지원되지 않습니다. 대신LLM.load_artifacts()
를 사용해 주시기 바랍니다.- 2024.1.X 의 아티팩트와 호환되지 않습니다. 2024.2.X로 생성한 아티팩트를 사용해주세요.
2024.2.0 릴리즈에 대한 더 자세한 정보는 Release Note of Furiosa SDK 2024.2.0 Beta0 에서 찾아보실 수 있습니다.