HIPAA 준수 데이터 레이크하우스 만들기
중급45분5시간 전
숙박업 신고·인허가 문서 데이터를 예시로 주민등록번호, 연락처, 건강 관련 메모 같은 민감정보를 유입 단계에서 제거하고, 조회 단계에서는 역할에 따라 SSN을 다르게 보이도록 보호 규칙을 적용합니다. 최종적으로 컬럼 마스킹 SQL, Spark 보안 설정 파일, PII/PHI 스크러빙 자동화 코드, 그리고 이를 묶은 샘플 레이크하우스 파이프라인 예제를 생성합니다.
이 실습은 터미널에서 진행됩니다
오른쪽 패널에서 설치 명령어를 복사하세요이런 걸 배워요
- 역할에 따라 SSN을 다르게 보여주는 컬럼 마스킹 SQL을 작성합니다
- Spark 임시·셔플 데이터와 S3 저장 구간의 암호화 설정을 구성합니다
- ingest 단계에서 주민등록번호·전화번호·진단 키워드를 제거하는 전처리 코드를 만듭니다
- 숙박업 신고·인허가 문서 데이터에 민감정보 보호 패턴을 적용합니다
어떻게 진행해요
1. 실행 환경 확인
2. 보호 기준 문서화
3. 샘플 원천 데이터 준비
4. 역할별 마스킹 SQL 작성
5. Spark 암호화 설정 구성
6. 유입 전 스크러빙 코드 작성
7. 파이프라인 예제 조립
8. 실행 결과 검증
AI 튜터가 각 단계를 하나씩 안내해줄 거예요