같은 GPU에서 LLM 서빙 처리량을 2~4배 향상시키는 다섯 가지 추론 최적화 기법 — 양자화부터 Speculative Decoding까지 | DEV BAK - 기술블로그