고민보단 실천을

PostgreSQL Row-Level Security 실전: 멀티테넌트 데이터 접근 제어를 DB에서 강제하는 법 본문

카테고리 없음

PostgreSQL Row-Level Security 실전: 멀티테넌트 데이터 접근 제어를 DB에서 강제하는 법

Just-Do-It 2026. 4. 17. 20:59

PostgreSQL Row-Level Security 실전: 멀티테넌트 데이터 접근 제어를 DB에서 강제하는 법

애플리케이션 코드에서 tenant_id 조건을 빼먹는 순간 데이터 누출이 일어난다.

중급 멀티테넌트 시스템에서는 중요한 경계 일부를 DB가 강제하게 만들어 실수를 줄일 필요가 있다.

왜 지금 이 주제가 중요한가

  • 개발자가 WHERE tenant_id를 빼먹는 실수는 생각보다 자주 발생한다.
  • 코드 리뷰만으로 모든 접근 경로를 보장하기 어렵다.
  • RLS는 강력하지만 세션 컨텍스트와 쿼리 경로를 정확히 이해해야 한다.

핵심 설계 포인트

  • RLS 정책은 tenant_id 같은 명확한 경계 기준을 사용한다.
  • 세션 단위 컨텍스트 설정 방식(current_setting 등)을 표준화한다.
  • 관리자/배치 경로는 예외 정책과 감사 로그를 함께 설계한다.
  • RLS 도입 후 실행 계획과 성능 영향을 확인한다.

예시 구성

ALTER TABLE invoices ENABLE ROW LEVEL SECURITY;
CREATE POLICY tenant_isolation ON invoices
USING (tenant_id = current_setting('app.tenant_id')::uuid);

적용 순서(실무 플로우)

큰 설계보다도, 작게 도입하고 관측하면서 범위를 넓히는 순서가 운영 성공률을 결정한다.

  1. 누출 위험이 큰 테이블부터 우선 적용한다.
  2. 애플리케이션에서 tenant context를 세션에 주입하는 공통 계층을 만든다.
  3. 정상 사용자와 관리자 경로를 분리해 테스트한다.
  4. 예외 경로는 감사 로그와 최소 권한으로 관리한다.
  5. 정기적으로 policy 누락 테이블이 없는지 점검한다.

운영 체크포인트

  • SET LOCAL로 세션 컨텍스트를 관리해 트랜잭션 범위를 제한한다.
  • 관리자 우회 계정은 최소화하고 감사 로그를 남긴다.
  • 성능 문제는 인덱스와 정책 표현식을 같이 본다.

운영 지표/알람 추천

  • 쿼리 p95/p99, scan 비율, slow query 수
  • 락 대기와 연결 풀 대기 시간
  • 스토리지 증가 속도와 파티션/샤드 불균형
  • 정합성 오류 또는 권한 우회 시도 건수

빠른 점검 명령/쿼리

# 실행 계획과 느린 쿼리 상위 N개 먼저 확인
# 권한 우회/테넌트 누락 조건이 없는지 샘플 쿼리 재현
# 파티션/정렬 키가 실제 조회 패턴과 맞는지 점검

구조화 로그 필드 추천

  • requestId/traceId/eventId처럼 흐름을 잇는 키를 남긴다.
  • 버전, 테넌트, 리전, 대상 리소스 같은 핵심 차원을 구조화한다.
  • 실패 이유(reasonCode)와 재시도 횟수(retryAttempt)를 분리한다.
  • 민감정보는 마스킹하고, payload는 원본 대신 요약 정보만 남긴다.
{
"level": "INFO",
"message": "request completed",
"requestId": "req_123",
"traceId": "4bf92f...",
"status": 200,
"latencyMs": 123,
"reasonCode": null
}

테스트 케이스 샘플

테스트 케이스(최소 3종):
1) 정상: 기대한 성공 경로와 상태 전이가 유지되는지
2) 실패: 오류가 예측 가능한 상태/코드로 떨어지는지
3) 동시성/재시도: 중복 요청·이벤트·배포 상황에서도 깨지지 않는지

추가(가능하면):
- 장애 복구: 프로세스 재시작, 네트워크 지연, 설정 rollback 이후에도 회복되는지
- 운영 검증: 대시보드와 알람만으로 원인을 좁힐 수 있는지

트레이드오프/대안

  • 운영 복잡도를 줄이면 유연성이 줄고, 유연성을 높이면 운영 비용이 올라간다.
  • 기본값은 정답이 아니라 출발점이다. 실제 트래픽과 장애 패턴을 보고 조정해야 한다.
  • 문서와 자동화가 없으면 좋은 설계도 팀이 늘어나는 순간 무너진다.
  • 관측 없이 최적화하면 체감 개선과 회귀를 구분하기 어렵다.

성공 기준(SLO) 예시

  • 핵심 경로 에러율: 0.1% 이하
  • 핵심 요청/이벤트 p95 지연: 서비스 목표 내 유지
  • 중복 실행/유실/권한 우회 같은 치명적 부작용: 0건
  • 장애 감지 후 임시 조치까지 걸리는 시간: 10분 이내

자주 터지는 실수/트러블슈팅

  1. RLS를 켰지만 애플리케이션이 tenant context를 제대로 주입하지 않는다.
  2. 관리자 우회 경로가 너무 많다.
  3. 정책만 만들고 실제 쿼리 테스트를 충분히 하지 않는다.

바로 적용 템플릿

RLS 템플릿:
tenant context 설정 방식
일반 사용자 정책 / 관리자 예외 정책
감사 로그
정책 누락 테이블 점검 절차

검증 방법

  • 잘못된 tenant context 또는 context 누락 시 데이터가 조회되지 않는지 확인한다.
  • 관리자 예외 경로가 의도한 테이블에만 적용되는지 테스트한다.

장애 대응 Runbook(초안)

  • 현상: 어디서 무엇이 깨졌는지 한 문장으로 적는다.
  • 범위: 언제부터, 누구에게, 어느 경로에서 발생했는지 정리한다.
  • 증거: 로그 3줄, 지표 1개, 최근 배포/설정 변경 1개를 먼저 모은다.
  • 임시 조치: 차단, rollback, 스위치 전환, 재시도 제한 중 무엇을 할지 정한다.
  • 근본 원인: 계약, 설정, 타임아웃, 리소스, 운영 절차 중 어느 축이 깨졌는지 좁힌다.
  • 재발 방지: 테스트, 알람, 기본값, 문서를 함께 바꾼다.

리뷰 체크리스트

  1. 상태 전이와 실패 시나리오가 문서와 코드에서 같은 의미로 정의돼 있다.
  2. 타임아웃, 재시도, 권한, 캐시 같은 보호 장치가 서로 충돌하지 않는다.
  3. 운영 중 재현 가능한 로그/지표/상관관계 키가 있다.
  4. 롤백 또는 비상 스위치가 준비돼 있다.
  5. 최소 1개 이상의 실패/동시성/복구 테스트가 자동화돼 있다.
  6. 공식 문서 링크와 팀 의사결정 근거가 남아 있다.

도입 전 질문 체크리스트

  • 이 주제의 기본값을 누가 바꿀 수 있고, 변경 기록은 어디에 남는가?
  • 배포 직후 문제가 생기면 10분 안에 되돌릴 수 있는가?
  • 새로운 팀원이 문서만 보고도 같은 규칙을 재현할 수 있는가?
  • 장애가 났을 때 고객 영향 범위를 바로 설명할 수 있는가?

팀 문서 템플릿

팀 문서 템플릿(복붙용):
1) 목표/배경: 어떤 장애/비용을 줄이려는가
2) 범위: 어느 API/토픽/클러스터/브라우저/테넌트에 적용하는가
3) 규칙: 버전, TTL, timeout, retry, 소유 팀, 기본값
4) 예외: 차단 조건과 에러 코드, 수동 개입 조건
5) 운영: 대시보드, 알람, 배포/실험 주기
6) 장애 대응: 임시 조치, rollback, 후속 공지 절차
7) 변경 이력: 언제 누가 왜 값을 바꿨는가

FAQ(자주 묻는 질문)

Q. 처음부터 완벽하게 도입해야 하나요?
A. 아니다. 핵심 경로 1개부터 시작해서 지표와 장애 패턴을 보며 넓히는 편이 안전하다.

Q. "PostgreSQL Row-Level Security 실전: 멀티테넌트 데이터 접근 제어를 DB에서 강제하는 법"를 넣었는데도 문제가 남습니다. 어디부터 봐야 하나요?
A. 최근 변경점과 상관관계 키가 있는 로그를 먼저 보고, 기본값과 경계 조건이 실제 트래픽에 맞는지 확인한다.

Q. 팀마다 구현이 달라집니다. 무엇을 가장 먼저 고정해야 하나요?
A. 상태 전이, 예외 처리, 기본값, rollback 기준 네 가지를 먼저 문서화해야 한다.

참고/출처

Comments