HuggingFace 모델 사용 문의

Transformer 기반 Seq2Seq 모델을 양자화하여 NPU로 추론하려고 하는데

  1. HuggingFace에서 Quantization해서 생성한 onnx 모델은 사용할 수 있나요?
  2. furiosa.runtime의 session.create() 함수의 파라미터로는 “.dfg”, “.enf” 확장자의 모델만 지원하나요?

안녕하세요 FuriosaAI 김종욱입니다.

주신 문의에 대해 답장을 드리면

  1. HuggingFace에서 제공한 Quantization한 onnx 모델을 사용하기는 어려우시며, 저희 SDK에서 제공하고 있는 Quantization 기능을 이용하셔야 될 것 같습니다.
  2. 해당 포맷(.dfg, .enf)을 가진 모델만 지원하고 있습니다.

추가적으로 현재 Warboy에서는 Transformer 기반 모델을 지원하고 있지 않고 있어, 원하는 성능이 나오지 않을 가능성이 높습니다. 불편함을 드려서 죄송합니다.

김종욱 드림.

1 Like

답변 감사합니다.

추가적으로 질문드리자면 혹시 LSTM이나 RNN 같은 원시 모델로
자체적으로 학습해서 만든 Text 타겟 모델은 사용이 가능한가요?

Transformer와 마차가지로 LSTM이나 RNN 또한 지원이 어렵습니다.

감사합니다.
김종욱 드림.

1 Like

답변 감사합니다.

그렇다면 마지막으로 지원이 어려운 이유를 알 수 있을까요?
가령, NPU에서 성능 차이가 미미하여 지원하지 않는다던가,
NPU에서 컨볼루션 신경망 형태를 처리하도록 최적화 되어 있다던가 등

내부적인 사항으로 설명이 어렵다면
간단하게라도 설명해주실 수 있을까요?

넵 Warboy 칩의 아키텍쳐가 CNN 계열만 가속되도록 설계되었기 때문입니다.
가속이 되지 않는 연산자들이 있으면 CPU에서 수행되기 때문에 실행 속도가 느릴 수 있습니다.
내년에 양산되는 2세대 칩은 현존하는 모든 모델을 가속할 수 있도록 설계 되었습니다.
FuriosaAI 2세대 칩 많은 기대 부탁 드립니다.

2 Likes