Rona

Mac Mini 로컬 LLM 서버 만들기

중급452026-06-19

Mac Mini에서 외부 LLM API 대신 로컬 추론을 쓰기 위해 llama.cpp를 Metal 가속으로 빌드하고, Qwen 3.5 GGUF 모델과 채팅 템플릿을 연결해 실행 환경을 구성합니다. 최종적으로는 llama-server 실행 스크립트, OpenClaw 연동 설정 예시, launchd plist 파일까지 포함한 로컬 LLM 서버 배포용 파일 묶음을 준비합니다.

이 실습은 터미널에서 진행됩니다

이런 걸 배워요

  • Mac Mini용 로컬 LLM 서버 구성을 파일 단위로 재현할 수 있습니다
  • llama.cpp를 Metal 가속 옵션으로 빌드하는 흐름을 이해합니다
  • GGUF 모델과 채팅 템플릿을 llama-server 실행 인자로 연결할 수 있습니다
  • OpenClaw 에이전트가 로컬 OpenAI 호환 엔드포인트를 바라보도록 설정할 수 있습니다
  • launchd plist로 재시작 가능한 서비스 구성을 준비할 수 있습니다

어떻게 진행해요

1. Mac Mini 환경 점검
2. 서버 패키지 구조 잡기
3. llama.cpp 소스 내려받기
4. Metal 빌드 설정 만들기
5. llama-server 빌드하기
6. Qwen 모델 자산 받기
7. 실행 스크립트와 서비스 파일 작성
8. 배포 전 구성 검증

AI 튜터가 각 단계를 하나씩 안내해줄 거예요