K8s device plugin Daemonset, Pods 무한 재시작 문제

안녕하세요

furiosa device plugin 이 계속 재시작되는 이슈가 발생했는데, 딱히 파드에 로그도 남지 않아서 디버깅이 어려운 상황입니다

kubectl apply -f https://raw.githubusercontent.com/furiosa-ai/furiosa-sdk/0.8.0/kubernetes/deployments/device-plugin.yaml
kubectl apply -f https://raw.githubusercontent.com/furiosa-ai/furiosa-sdk/0.8.0/kubernetes/deployments/npu-feature-discovery.yaml
kubectl apply -f https://raw.githubusercontent.com/furiosa-ai/furiosa-sdk/0.8.0/kubernetes/deployments/npu-metrics-exporter.yaml

위 방법으로 데몬세트 재설치하여도 증상이 동일하고, 재부팅해도 동일한 상황입니다.

현재 호스트 노드 및 도커 privileged 모드에서는 npu 사용 가능한 상황입니다.

furiosactl info
+------+--------+----------------+-------+---------+--------------+
| NPU  | Name   | Firmware       | Temp. | Power   | PCI-BDF      |
+------+--------+----------------+-------+---------+--------------+
| npu0 | warboy | 1.7.2, e1c4288 |  52°C | 16.63 W | 0000:17:00.0 |
+------+--------+----------------+-------+---------+--------------+
| npu1 | warboy | 1.7.2, e1c4288 |  55°C | 17.18 W | 0000:31:00.0 |
+------+--------+----------------+-------+---------+--------------+
| npu2 | warboy | 1.7.2, e1c4288 |  52°C | 16.81 W | 0000:b1:00.0 |
+------+--------+----------------+-------+---------+--------------+
| npu3 | warboy | 1.7.2, e1c4288 |  50°C | 15.62 W | 0000:ca:00.0 |
+------+--------+----------------+-------+---------+--------------+

kubectl describe nodes dudaji-furiosa-0 | grep pci
                    feature.node.kubernetes.io/pci-14e4.present=true
                    feature.node.kubernetes.io/pci-1a03.present=true
                    feature.node.kubernetes.io/pci-1ed2.present=true

혹시 비슷한 증상을 경험하셨다거나, 해결책이 있을까요?

안녕하세요, 퓨리오사에이아이 김종욱입니다.

해당 현상은 처음 보는 현상이라 늦게 답변드리게 되었습니다. 죄송합니다.
혹시 메일로 공유드린 문서를 통해 k8s 실행을 새로 해보실 수 있으실까요?

1 Like

안녕하세요 우선 답변주셔서 감사합니다
저희 오늘 이 현상이 해결되었는데

데몬세트 전체 삭제 후
node-feature-discovery 부터 재설치 하던 도중
furiosa.sock 파일 관련 에러가 발생하여 소켓 파일 삭제 후
재설치하니 정상작동 한다고 합니다

2 Likes