안녕하세요.
쿠버네티스 상에서 furiosa sdk를 활용하여 추론서버를 배포한 상태에서 요청이 끝난뒤에도 cpu점유율이 유지되는 상황인데, 요청을 보내지 않을 때는 대기상태에서는 1000에서 100미만까지 cpu를 낮추고 싶은 상황입니다.

코드의 골조는 다음과 같습니다.
submitter, queue = furiosa.runtime.session.create_async(os.path.join(path_training, './weight.enf'),
worker_num=2,
# Determine how many asynchronous requests you can submit
# without blocking.
input_queue_size=100,
output_queue_size=100)
idx = random.randint(0, 59999)
self.submitter.submit(img, context=idx)
context, outputs = self.queue.recv(1000)
create_asnyc, queue를 활용하는 것이 아닌 sync형태로 돌릴 경우 추론요청이 끝나면 cpu가 낮아지는데, 위의 코드 골조에서는 첨부이미지처럼 cpu가 1000이상으로 유지가됩니다.
queue를 with로(with self.queue) 구현시에 추론이 끝나면 cpu가 낮아지긴하지만, 두번째 요청 이후로는 runtime.FuriosaRuntimeError: session has been already terminated
에러가 발생합니다. 유추하기로는 queue부분에서 루프 최적화가 안되서 cpu가 높게 유지되는 것 같긴한데, 대기상태에서 100미만으로 낮출 수 있는 방법이 있을까요?