PCIe 4.0 보드에서 RNGD의 간헐적 인식 문제

안녕하세요.
PCIe 4.0 보드에서 RNGD 간헐적 인식 문제 관련하여 글을 작성합니다.

현재 사용하는 사양

  • CPU: AMD Ryzen 5600X
  • Mainboard: AsRock X570D4U (PCIe 4.0 x16 supported)
  • Memory: DDR4 32GB
  • Power: 750W (12VHPWR 변환 케이블 사용하여 RNGD에 보조전원 연결)

대강 이렇습니다.

발생하는 문제

  1. RNGD를 장착한 서버를 부팅하고 lspci -nn | grep FuriosaAI 를 시도했을 때, PCIe 슬롯에 있는 RNGD가 간헐적으로 인식됩니다. 현재는 인식될 때까지 재부팅을 하는식으로 해결하고 있습니다.
  2. lspci를 통해 RNGD가 인식이 잘 되고 있는 것을 확인한 후, furiosa-smi info를 시도할 경우, RNGD를 찾지 못합니다. (이 때, rngd를 찾을 수 없다?는 내용의 에러 메시지가 출력되는데 곧 글을 업데이트 하겠습니다. RNGD를 탈거한 상태에서 시도하면 에러 메시지가 출력되지 않았습니다)
  3. RNGD 드라이버 재설치를 해도 해결되지 않습니다.

질문

  • 확실하진 않지만 구형 PCIe 4.0 메인보드를 사용할 경우, RNGD가 인식이 잘 되지 않는 문제가 발생할 수 있나요?
  • 현재 BIOS 업데이트를 하고 재시도를 해보려고 하고 있습니다. 만약 BIOS 업데이트를 통해 문제가 해결된다면 다시 글을 수정하겠습니다.

안녕하세요?

우선 RNGD는 PCIe 5.0 용으로 설계되었기 때문에 PCIe 4.0 에서 충분히 테스트가 안되어 있는 상태입니다. 불편 드려 죄송합니다.

PCIe 4.0 에서 성능에 영향을 있겠지만 동작은 가능해야 할 것 같은데요. 혹시 RNGD가 인식된 상태에서 furiosa-smi info 커맨드를 실행했을 때 출력되는 에러메시지를 공유 주실 수 있으실까요?

1 Like

RNGD가 인식 까지 재부팅이 필요하시다고 들었는데요. 번거로우시겠지만 인식이 성공하면 아래 커맨드를 실행하시면 firmware 버전이 출력될 것 같습니다. 버전을 알려주시면 문제 해결에 큰 도움이 될 것 같습니다.

cat /sys/class/rngd_mgmt/rngd\!npu0mgmt/fw_version

추가로, 장치 인식과 무관하게 OS 버전과 driver 버전도 공유해주시면 문제 해결에 역시 큰 도움될 것 같습니다. 이미 아시겠지만, 노파심에 버전 정보를 얻는 방법을 아래 공유 드립니다.

$ lsb_release -a
No LSB modules are available.
Distributor ID: Ubuntu
Description:    Ubuntu 22.04.5 LTS
Release:        22.04
Codename:       jammy
$ apt list furiosa-driver-rngd -a | grep -e installed

furiosa-driver-rngd/jammy-rc,pre,now 1.1.0-3 amd64 [installed,upgradable to: 2024.2.0-3]
1 Like

빠른 답변 감사드립니다!

  • OS 버전
ubuntu@f04:~$ lsb_release -a
No LSB modules are available.
Distributor ID:	Ubuntu
Description:	Ubuntu 22.04.5 LTS
Release:	22.04
Codename:	jammy
  • 리눅스 커널 버전
ubuntu@f04:~$ uname -r
6.8.0-51-generic
  • RNGD PCI 슬롯에 인식 된 거 확인
ubuntu@f04:~$ lspci -nn | grep FuriosaAI
2d:00.0 Processing accelerators [1200]: FuriosaAI, Inc. RNGD [1ed2:0001] (rev 01)
  • RNGD 에러 메시지
ubuntu@f04:~$ furiosa-smi info
2025-01-13T03:33:50.654808Z ERROR furiosa_smi::device_error: Device not found: rngd
+------+--------+----------+------+-------+-------+---------+
| Arch | Device | Firmware | PERT | Temp. | Power | PCI-BDF |
+------+--------+----------+------+-------+-------+---------+
  • RNGD 펌웨어 버전. (해당 디렉토리가 비어있습니다)
ubuntu@f04:/sys/class$ ls -alh rngd_mgmt && ls -alh rngd_pdma
total 0
drwxr-xr-x  2 root root 0  1월 13 12:37 .
drwxr-xr-x 79 root root 0  1월 13 12:32 ..
total 0
drwxr-xr-x  2 root root 0  1월 13 12:37 .
drwxr-xr-x 79 root root 0  1월 13 12:32 ..
  • RNGD 관련 설치된 패키지들
ubuntu@f04:/sys/class$ apt list --installed | grep furio

WARNING: apt does not have a stable CLI interface. Use with caution in scripts.

furiosa-driver-rngd/jammy,now 2024.2.1-3 amd64 [installed]
furiosa-libsmi/jammy,now 2024.2.0-3 amd64 [installed,automatic]
furiosa-pert-rngd/jammy,now 2024.2.1-3 amd64 [installed]
furiosa-smi/jammy,now 2024.2.0-3 amd64 [installed]
1 Like

안녕 하세요.

Furiosa 장기석 입니다.

해당 이슈는 제가 직접 보지 못해서 확실 하지는 않지만, RNGD card의 BAR size가 너무 커서 Desktop에서 address assign을 못해서 발생 하는 이슈 인 것 처럼 보입니다.

혹시 아래 커맨드를 통해서 다음과 같은 정보를 확인 해 주실 수 있을까요?

sudo lspci -vv -s 2d:00.0 

Region 0: Memory at 3fd00000000 (64-bit, prefetchable) [size=2G]
Region 2: Memory at 3f800000000 (64-bit, prefetchable) [size=4G]
Region 4: Memory at 3e000000000 (64-bit, prefetchable) [size=64G]

만약에 위 예제처럼 Region이 설정 되지 않았다면, DeskTop <> RNGD card의 address assign 호환성 이슈로 판단이 되며, RNGD card firmware 업데이트가 필요 할 수 있습니다.

확인 부탁 드립니다.

2 Likes