Rona

LLM 에이전트 신뢰 게이트 만들기

고급502026-06-16

LLM 에이전트 호출 전후에 정책 기반 검증, 개인정보 마스킹, 인간 승인, 감사 추적을 연결하는 trust middleware를 구현합니다. 최종 결과물은 `main.py`, `layers.py`, `policy.json`, `scenarios.jsonl`, `audit_log.jsonl`, `verify_audit.py`로 구성된 Python 기반 CLI 프로토타입입니다.

이 실습은 터미널에서 진행됩니다

이런 걸 배워요

  • LLM 호출을 결정론적 guardrail 체인으로 감쌀 수 있습니다.
  • 모델 접촉 전에 개인정보를 제거하고 위험 입력을 차단할 수 있습니다.
  • 인간 승인 게이트가 침묵 시 안전하게 대기하거나 거부하도록 설계할 수 있습니다.
  • SHA-256 hash-chain으로 변조 감지 가능한 감사 로그를 남길 수 있습니다.
  • 동시 LLM 호출을 semaphore로 제한해 운영 리스크를 낮출 수 있습니다.

어떻게 진행해요

1. 환경 검증
2. 정책과 골격 작성
3. 입력 검열 계층 구현
4. 모델 호출 어댑터 연결
5. 승인 게이트와 감사 추적 추가
6. 공격 시나리오 작성
7. 시나리오 실행
8. 동시 실행 제한 추가
9. 감사 검증기 작성
10. 변조 감지 실행

AI 튜터가 각 단계를 하나씩 안내해줄 거예요