안녕하세요
furiosa device plugin 이 계속 재시작되는 이슈가 발생했는데, 딱히 파드에 로그도 남지 않아서 디버깅이 어려운 상황입니다
kubectl apply -f https://raw.githubusercontent.com/furiosa-ai/furiosa-sdk/0.8.0/kubernetes/deployments/device-plugin.yaml
kubectl apply -f https://raw.githubusercontent.com/furiosa-ai/furiosa-sdk/0.8.0/kubernetes/deployments/npu-feature-discovery.yaml
kubectl apply -f https://raw.githubusercontent.com/furiosa-ai/furiosa-sdk/0.8.0/kubernetes/deployments/npu-metrics-exporter.yaml
위 방법으로 데몬세트 재설치하여도 증상이 동일하고, 재부팅해도 동일한 상황입니다.
현재 호스트 노드 및 도커 privileged 모드에서는 npu 사용 가능한 상황입니다.
furiosactl info
+------+--------+----------------+-------+---------+--------------+
| NPU | Name | Firmware | Temp. | Power | PCI-BDF |
+------+--------+----------------+-------+---------+--------------+
| npu0 | warboy | 1.7.2, e1c4288 | 52°C | 16.63 W | 0000:17:00.0 |
+------+--------+----------------+-------+---------+--------------+
| npu1 | warboy | 1.7.2, e1c4288 | 55°C | 17.18 W | 0000:31:00.0 |
+------+--------+----------------+-------+---------+--------------+
| npu2 | warboy | 1.7.2, e1c4288 | 52°C | 16.81 W | 0000:b1:00.0 |
+------+--------+----------------+-------+---------+--------------+
| npu3 | warboy | 1.7.2, e1c4288 | 50°C | 15.62 W | 0000:ca:00.0 |
+------+--------+----------------+-------+---------+--------------+
kubectl describe nodes dudaji-furiosa-0 | grep pci
feature.node.kubernetes.io/pci-14e4.present=true
feature.node.kubernetes.io/pci-1a03.present=true
feature.node.kubernetes.io/pci-1ed2.present=true
혹시 비슷한 증상을 경험하셨다거나, 해결책이 있을까요?