Fake quantize mode 이슈

김종욱님 안녕하세요?

새로운 2025.3.0 버전으로 llm 모델을 성공적으로 로드하고 추론도 하였습니다.

llama 3.1 8b instruct 모델로 가이드에 따라 양자화한 후 아티팩트로 만들어서 추론도 성공했는데요.

아티팩트로 만드는 과정에서 다음과 같은 에러가 발생하였는데 이 부분은 무시해도 되는 것인가요?

“ERROR:2025-08-06 09:15:22+0000 Fake quantize mode doesn’t use scale explicitly!”

아티팩트를 로드하고 추론하는데 문제가 없는 것 같아서요.

확인 부탁드립니다.

prefill_model.matmul_29_input_1_1.zero_point’, ‘prefill_model.matmul_31_input_1_1.zero_point’, ‘prefill_model.matmul_33_input_1_1.zero_point’, ‘prefill_model.matmul_35_input_1_1.zero_point’, ‘prefill_model.matmul_37_input_1_1.zero_point’, ‘prefill_model.matmul_39_input_1_1.zero_point’, ‘prefill_model.matmul_3_input_1_1.zero_point’, ‘prefill_model.matmul_41_input_1_1.zero_point’, ‘prefill_model.matmul_43_input_1_1.zero_point’, ‘prefill_model.matmul_45_input_1_1.zero_point’, ‘prefill_model.matmul_47_input_1_1.zero_point’, ‘prefill_model.matmul_49_input_1_1.zero_point’, ‘prefill_model.matmul_51_input_1_1.zero_point’, ‘prefill_model.matmul_53_input_1_1.zero_point’, ‘prefill_model.matmul_55_input_1_1.zero_point’, ‘prefill_model.matmul_57_input_1_1.zero_point’, ‘prefill_model.matmul_59_input_1_1.zero_point’, ‘prefill_model.matmul_5_input_1_1.zero_point’, ‘prefill_model.matmul_61_input_1_1.zero_point’, ‘prefill_model.matmul_63_input_1_1.zero_point’, ‘prefill_model.matmul_7_input_1_1.zero_point’, ‘prefill_model.matmul_9_input_1_1.zero_point’, ‘prefill_model.mul_104.QLV4_output.zero_point’, ‘prefill_model.mul_111.QLV4_output.zero_point’, ‘prefill_model.mul_118.QLV4_output.zero_point’, ‘prefill_model.mul_125.QLV4_output.zero_point’, ‘prefill_model.mul_13.QLV4_output.zero_point’, ‘prefill_model.mul_132.QLV4_output.zero_point’, ‘prefill_model.mul_139.QLV4_output.zero_point’, ‘prefill_model.mul_146.QLV4_output.zero_point’, ‘prefill_model.mul_153.QLV4_output.zero_point’, ‘prefill_model.mul_160.QLV4_output.zero_point’, ‘prefill_model.mul_167.QLV4_output.zero_point’, ‘prefill_model.mul_174.QLV4_output.zero_point’, ‘prefill_model.mul_181.QLV4_output.zero_point’, ‘prefill_model.mul_188.QLV4_output.zero_point’, ‘prefill_model.mul_195.QLV4_output.zero_point’, ‘prefill_model.mul_20.QLV4_output.zero_point’, ‘prefill_model.mul_202.QLV4_output.zero_point’, ‘prefill_model.mul_209.QLV4_output.zero_point’, ‘prefill_model.mul_216.QLV4_output.zero_point’, ‘prefill_model.mul_223.QLV4_output.zero_point’, ‘prefill_model.mul_27.QLV4_output.zero_point’, ‘prefill_model.mul_34.QLV4_output.zero_point’, ‘prefill_model.mul_41.QLV4_output.zero_point’, ‘prefill_model.mul_48.QLV4_output.zero_point’, ‘prefill_model.mul_55.QLV4_output.zero_point’, ‘prefill_model.mul_6.QLV4_output.zero_point’, ‘prefill_model.mul_62.QLV4_output.zero_point’, ‘prefill_model.mul_69.QLV4_output.zero_point’, ‘prefill_model.mul_76.QLV4_output.zero_point’, ‘prefill_model.mul_83.QLV4_output.zero_point’, ‘prefill_model.mul_90.QLV4_output.zero_point’, ‘prefill_model.mul_97.QLV4_output.zero_point’)
ERROR:2025-08-06 09:15:22+0000 Fake quantize mode doesn’t use scale explicitly!
ERROR:2025-08-06 09:15:22+0000 Fake quantize mode doesn’t use scale explicitly!
ERROR:2025-08-06 09:15:22+0000 Fake quantize mode doesn’t use scale explicitly!
ERROR:2025-08-06 09:15:22+0000 Fake quantize mode doesn’t use scale explicitly!
WARNING:2025-08-06 09:15:22+0000 Tensor with size will be included in serialized graph. Serialized graph size might be large.
INFO:2025-08-06 09:15:26+0000 547 weights will not be saved for GraphModule caching, there’s already param file containing them.
INFO:2025-08-06 09:16:14+0000 Quantization artifacts hashing takes 0.00 seconds.
INFO:2025-08-06 09:16:14+0000 Add metadata and rewrite fx graph.

안녕하세요, 퓨리오사에이아이 김종욱입니다.

말씀 주신 부분은 무시하셔도 됩니다. 추가로..미리 양자화도 된 것들이 아래 허깅페이스에도 제공이 되고 있으니 확인하시면 보다 간편한 사용을 하실 수 있습니다!

안녕하세요?

Fake quantize mode doesn’t use scale explicitly! 는 PyTorch 쪽에서 발생하는 오류로 알고 있습니다. 따라서 문제가 있는 상황은 아니므로 우려하지 않으셔도 좋을 것 같습니다.

그러나 말씀 주신 것 처럼 사용자들이 충분히 오해할 수 있을 것 같으니 해당 에러 로그를 억제하는 방법을 찾아보도록 하겠습니다.

피드백 주셔서 감사합니다.

네 알겠습니다.

자세한 답변을 주셔서 감사합니다.