Rona

RTX 5080/3090 듀얼 GPU 로컬 LLM 고속 추론 환경 만들기

고급552026-06-13

RTX 5080과 RTX 3090을 함께 쓰는 로컬 AI 서버의 빌드·실행 설정과 성능 로그를 수집해, 토큰 처리 속도와 VRAM 사용량, 병목 위험을 기준으로 운영 판단 자료로 정리합니다. 최종 결과물은 듀얼 GPU용 llama.cpp 빌드·실행 자동화 파일, 샘플 진단 로그, 성능 분석 자동화 코드, 그리고 RFP·Notion에 붙여넣을 수 있는 운영 판단 보고서입니다.

이 실습은 터미널에서 진행됩니다

이런 걸 배워요

  • RTX 5080과 RTX 3090을 함께 쓰는 로컬 AI 서버 설정값을 운영 문서로 정리합니다
  • 텐서 스플릿과 VRAM 분산 로딩의 의미를 성능·비용 관점에서 설명합니다
  • 토큰 처리 속도, VRAM 사용량, 병목 위험을 자동으로 진단하는 보고서를 만듭니다
  • RFP와 KPI 보고에 넣을 수 있는 의사결정 요약을 생성합니다

어떻게 진행해요

1. 환경 제약 확인
2. 진단 패키지 뼈대 생성
3. 빌드·실행 설정 문서화
4. 샘플 진단 로그 생성
5. 분석 자동화 코드 작성
6. 보고서 생성 실행
7. GPU 분배값 조정
8. RFP·Notion 요약 작성

AI 튜터가 각 단계를 하나씩 안내해줄 거예요

RTX 5080/3090 듀얼 GPU 로컬 LLM 고속 추론 환경 만들기 (고급)