Furiosa SDK 2024.2.0 릴리즈

Furiosa SDK 2024.2.0 릴리스되었습니다. 2024.2.0은 RNGD를 위한 두 번째 메이저 SDK 릴리스입니다. 이번 릴리스는 새로운 모델 지원, 8K 컨텍스트 길이 지원, Tensor Parallelism 지원, PyTorch 2.4.1 업그레이드, Optimum API 지원, 성능 향상 등 많은 새로운 기능과 중요한 개선 사항을 포함하고 있습니다. 자세한 내용은 아래 주요 사항을 참고하세요. Furiosa 소프트웨어 스택을 업그레이드하려면 Upgrading Furiosa Software Stack 를 참고하시기 바랍니다.

주요 개선 사항

  • 새로운 모델 지원: Solar, EXAONE-3.0, CodeLLaMA2, Vicuna 등
  • 최대 8K 컨텍스트 길이 (<= 8192) 지원
  • 텐서 병렬 처리 지원 (tensor_parallel_size <= 8)
  • Torch 2.4.1 지원
  • Transformers 4.44.2 지원
  • Furiosa LLM 개선 사항
    • ArtifactBuilder API 및 CLI 도구 지원 (ArtifactBuilder API)
      • Huggingface Hub 모델로부터 Huggingface Transformers 호환 API를 통해 아티팩트를 빌드할 수 있습니다.
    • Huggingface Transformers 호환 API 지원 (furiosa_llm.optimum)
      • AutoModel, AutoModelForCausalLM, AutoModelForQuestionAnswering API
      • QuantizerForCausalLM API를 통한 캘리브레이션 및 양자화 지원
  • LLMEngine, AsyncLLMEngine API 추가로 vLLM과 호환성 향상
  • LlamaForCausalLM 기반 모델의 성능 약 20% 향상
    • 예: 단일 RNGD 카드에서 LLaMA 3.1 8B 모델은 초당 3580 토큰 처리 가능

Breaking Change

  • LLM.from_artifacts() API는 더 이상 지원되지 않습니다. 대신 LLM.load_artifacts()를 사용해 주시기 바랍니다.
  • 2024.1.X 의 아티팩트와 호환되지 않습니다. 2024.2.X로 생성한 아티팩트를 사용해주세요.

2024.2.0 릴리즈에 대한 더 자세한 정보는 Release Note of Furiosa SDK 2024.2.0 Beta0 에서 찾아보실 수 있습니다.