김종욱님 안녕하세요?
새로운 2025.3.0 버전으로 llm 모델을 성공적으로 로드하고 추론도 하였습니다.
llama 3.1 8b instruct 모델로 가이드에 따라 양자화한 후 아티팩트로 만들어서 추론도 성공했는데요.
아티팩트로 만드는 과정에서 다음과 같은 에러가 발생하였는데 이 부분은 무시해도 되는 것인가요?
“ERROR:2025-08-06 09:15:22+0000 Fake quantize mode doesn’t use scale explicitly!”
아티팩트를 로드하고 추론하는데 문제가 없는 것 같아서요.
확인 부탁드립니다.
prefill_model.matmul_29_input_1_1.zero_point’, ‘prefill_model.matmul_31_input_1_1.zero_point’, ‘prefill_model.matmul_33_input_1_1.zero_point’, ‘prefill_model.matmul_35_input_1_1.zero_point’, ‘prefill_model.matmul_37_input_1_1.zero_point’, ‘prefill_model.matmul_39_input_1_1.zero_point’, ‘prefill_model.matmul_3_input_1_1.zero_point’, ‘prefill_model.matmul_41_input_1_1.zero_point’, ‘prefill_model.matmul_43_input_1_1.zero_point’, ‘prefill_model.matmul_45_input_1_1.zero_point’, ‘prefill_model.matmul_47_input_1_1.zero_point’, ‘prefill_model.matmul_49_input_1_1.zero_point’, ‘prefill_model.matmul_51_input_1_1.zero_point’, ‘prefill_model.matmul_53_input_1_1.zero_point’, ‘prefill_model.matmul_55_input_1_1.zero_point’, ‘prefill_model.matmul_57_input_1_1.zero_point’, ‘prefill_model.matmul_59_input_1_1.zero_point’, ‘prefill_model.matmul_5_input_1_1.zero_point’, ‘prefill_model.matmul_61_input_1_1.zero_point’, ‘prefill_model.matmul_63_input_1_1.zero_point’, ‘prefill_model.matmul_7_input_1_1.zero_point’, ‘prefill_model.matmul_9_input_1_1.zero_point’, ‘prefill_model.mul_104.QLV4_output.zero_point’, ‘prefill_model.mul_111.QLV4_output.zero_point’, ‘prefill_model.mul_118.QLV4_output.zero_point’, ‘prefill_model.mul_125.QLV4_output.zero_point’, ‘prefill_model.mul_13.QLV4_output.zero_point’, ‘prefill_model.mul_132.QLV4_output.zero_point’, ‘prefill_model.mul_139.QLV4_output.zero_point’, ‘prefill_model.mul_146.QLV4_output.zero_point’, ‘prefill_model.mul_153.QLV4_output.zero_point’, ‘prefill_model.mul_160.QLV4_output.zero_point’, ‘prefill_model.mul_167.QLV4_output.zero_point’, ‘prefill_model.mul_174.QLV4_output.zero_point’, ‘prefill_model.mul_181.QLV4_output.zero_point’, ‘prefill_model.mul_188.QLV4_output.zero_point’, ‘prefill_model.mul_195.QLV4_output.zero_point’, ‘prefill_model.mul_20.QLV4_output.zero_point’, ‘prefill_model.mul_202.QLV4_output.zero_point’, ‘prefill_model.mul_209.QLV4_output.zero_point’, ‘prefill_model.mul_216.QLV4_output.zero_point’, ‘prefill_model.mul_223.QLV4_output.zero_point’, ‘prefill_model.mul_27.QLV4_output.zero_point’, ‘prefill_model.mul_34.QLV4_output.zero_point’, ‘prefill_model.mul_41.QLV4_output.zero_point’, ‘prefill_model.mul_48.QLV4_output.zero_point’, ‘prefill_model.mul_55.QLV4_output.zero_point’, ‘prefill_model.mul_6.QLV4_output.zero_point’, ‘prefill_model.mul_62.QLV4_output.zero_point’, ‘prefill_model.mul_69.QLV4_output.zero_point’, ‘prefill_model.mul_76.QLV4_output.zero_point’, ‘prefill_model.mul_83.QLV4_output.zero_point’, ‘prefill_model.mul_90.QLV4_output.zero_point’, ‘prefill_model.mul_97.QLV4_output.zero_point’)
ERROR:2025-08-06 09:15:22+0000 Fake quantize mode doesn’t use scale explicitly!
ERROR:2025-08-06 09:15:22+0000 Fake quantize mode doesn’t use scale explicitly!
ERROR:2025-08-06 09:15:22+0000 Fake quantize mode doesn’t use scale explicitly!
ERROR:2025-08-06 09:15:22+0000 Fake quantize mode doesn’t use scale explicitly!
WARNING:2025-08-06 09:15:22+0000 Tensor with size will be included in serialized graph. Serialized graph size might be large.
INFO:2025-08-06 09:15:26+0000 547 weights will not be saved for GraphModule caching, there’s already param file containing them.
INFO:2025-08-06 09:16:14+0000 Quantization artifacts hashing takes 0.00 seconds.
INFO:2025-08-06 09:16:14+0000 Add metadata and rewrite fx graph.