1편
전체 글
OpenAI 호환 LLM 추론 서버 vLLM의 완벽 가이드. PagedAttention·Continuous Batching·프리픽스 캐시·양자화(AWQ/GPTQ/FP8)·Tensor Parallel·프로덕션 Kubernetes 배포까지 실전 중심 정리.