RNGD를 장착한 서버를 부팅하고 lspci -nn | grep FuriosaAI 를 시도했을 때, PCIe 슬롯에 있는 RNGD가 간헐적으로 인식됩니다. 현재는 인식될 때까지 재부팅을 하는식으로 해결하고 있습니다.
lspci를 통해 RNGD가 인식이 잘 되고 있는 것을 확인한 후, furiosa-smi info를 시도할 경우, RNGD를 찾지 못합니다. (이 때, rngd를 찾을 수 없다?는 내용의 에러 메시지가 출력되는데 곧 글을 업데이트 하겠습니다. RNGD를 탈거한 상태에서 시도하면 에러 메시지가 출력되지 않았습니다)
RNGD 드라이버 재설치를 해도 해결되지 않습니다.
질문
확실하진 않지만 구형 PCIe 4.0 메인보드를 사용할 경우, RNGD가 인식이 잘 되지 않는 문제가 발생할 수 있나요?
현재 BIOS 업데이트를 하고 재시도를 해보려고 하고 있습니다. 만약 BIOS 업데이트를 통해 문제가 해결된다면 다시 글을 수정하겠습니다.
ubuntu@f04:~$ furiosa-smi info
2025-01-13T03:33:50.654808Z ERROR furiosa_smi::device_error: Device not found: rngd
+------+--------+----------+------+-------+-------+---------+
| Arch | Device | Firmware | PERT | Temp. | Power | PCI-BDF |
+------+--------+----------+------+-------+-------+---------+
RNGD 펌웨어 버전. (해당 디렉토리가 비어있습니다)
ubuntu@f04:/sys/class$ ls -alh rngd_mgmt && ls -alh rngd_pdma
total 0
drwxr-xr-x 2 root root 0 1월 13 12:37 .
drwxr-xr-x 79 root root 0 1월 13 12:32 ..
total 0
drwxr-xr-x 2 root root 0 1월 13 12:37 .
drwxr-xr-x 79 root root 0 1월 13 12:32 ..
RNGD 관련 설치된 패키지들
ubuntu@f04:/sys/class$ apt list --installed | grep furio
WARNING: apt does not have a stable CLI interface. Use with caution in scripts.
furiosa-driver-rngd/jammy,now 2024.2.1-3 amd64 [installed]
furiosa-libsmi/jammy,now 2024.2.0-3 amd64 [installed,automatic]
furiosa-pert-rngd/jammy,now 2024.2.1-3 amd64 [installed]
furiosa-smi/jammy,now 2024.2.0-3 amd64 [installed]
해당 이슈는 제가 직접 보지 못해서 확실 하지는 않지만, RNGD card의 BAR size가 너무 커서 Desktop에서 address assign을 못해서 발생 하는 이슈 인 것 처럼 보입니다.
혹시 아래 커맨드를 통해서 다음과 같은 정보를 확인 해 주실 수 있을까요?
sudo lspci -vv -s 2d:00.0
Region 0: Memory at 3fd00000000 (64-bit, prefetchable) [size=2G]
Region 2: Memory at 3f800000000 (64-bit, prefetchable) [size=4G]
Region 4: Memory at 3e000000000 (64-bit, prefetchable) [size=64G]
만약에 위 예제처럼 Region이 설정 되지 않았다면, DeskTop <> RNGD card의 address assign 호환성 이슈로 판단이 되며, RNGD card firmware 업데이트가 필요 할 수 있습니다.