Rona

HIPAA 준수 데이터 레이크하우스 만들기

중급452026-06-20

원본 의료 데이터를 ingest 단계에서 읽어 PII/PHI를 제거하고, silver 테이블에는 역할 기반 컬럼 마스킹과 Spark/AWS KMS 암호화 설정을 적용하는 데이터 레이크하우스 흐름을 만듭니다. 최종 결과물은 PHI가 마스킹된 silver 데이터 파일, 컬럼 마스킹 SQL 스크립트, Spark 암호화 설정 파일, PII/PHI 스크러빙 파이프라인 예제 코드로 구성된 로컬 산출물 묶음입니다.

이 실습은 터미널에서 진행됩니다

이런 걸 배워요

  • raw 의료 데이터에서 PII/PHI를 제거하는 ingest 흐름을 구성합니다
  • silver 테이블에 역할 기반 컬럼 마스킹 SQL을 적용하는 방식을 이해합니다
  • Spark 셔플/임시 파일 암호화 설정을 작성합니다
  • AWS KMS 기반 S3 저장 암호화 설정을 안전한 placeholder로 구성합니다

어떻게 진행해요

1. 환경 확인하기
2. 원본 의료 데이터 준비하기
3. 민감정보 제거 코드 작성하기
4. 정제 결과 실행 확인하기
5. 컬럼 마스킹 SQL 작성하기
6. Spark 임시 파일 암호화 설정하기
7. KMS 저장 암호화 설정하기
8. 산출물 감사 체크하기

AI 튜터가 각 단계를 하나씩 안내해줄 거예요

HIPAA 준수 데이터 레이크하우스 만들기 (중급)