| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- react
- Debugging
- CSS
- SRE
- Infra
- web
- architecture
- reliability
- version-control
- auth
- 버전관리
- Operations
- observability
- JavaScript
- Security
- database
- API
- Git
- aws
- HTTP
- Ops
- CI
- 성능
- Kubernetes
- PostgreSQL
- backend
- DevOps
- Performance
- NextJS
- frontend
- Today
- Total
목록Ops (12)
고민보단 실천을
Prometheus scrape/relabeling 실전: 지표 라벨 폭발을 막고 쿼리를 빠르게 만드는 법Prometheus가 느려지고 비용이 늘어나는 가장 흔한 이유는 '라벨 폭발'입니다.scrape/relabeling으로 지표를 운영 가능한 형태로 정리하는 방법을 실무 기준으로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)Prometheus가 느려지고 비용이 늘어..
OAuth2 Token Introspection 설계: JWT만으로 안 될 때, 언제/왜 introspection을 쓰나JWT는 빠르지만, '즉시 폐기' 같은 요구가 생기면 구조적으로 불리할 수 있습니다.Token Introspection을 언제 도입하고, 운영에서 어떤 비용을 감당해야 하는지 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)보안은 '켜면 끝'이 아니라, 환경(도메인/HTTPS/프록시)과 결합된 실제 동작이 중요합니다. 그래서 단계적 도입과 관측이 핵심입니다.보안 설정은 예외가 생기기 쉬우므로, 예외를 '운영 프로세스'로 관리(만료/승인/감사)하지 않으면 시간이 지날수록 사고 확률이..
보안 헤더 실전: CSP/HSTS/X-Content-Type-Options를 언제 어떻게 켤까보안 헤더는 켜면 좋지만, 잘못 켜면 서비스가 깨집니다. 그래서 '순서'가 중요합니다.CSP/HSTS 등 자주 쓰는 헤더를 운영 가능하게(깨지지 않게) 도입하는 방법을 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)보안은 '켜면 끝'이 아니라, 환경(도메인/HTTPS/프록시)과 결합된 실제 동작이 중요합니다. 그래서 단계적 도입과 관측이 핵심입니다.보안 설정은 예외가 생기기 쉬우므로, 예외를 '운영 프로세스'로 관리(만료/승인/감사)하지 않으면 시간이 지날수록 사고 확률이 커집니다.실전 내용(바로 적용)보..
레이트리밋 응답 설계: 429 + RFC 9331 RateLimit 헤더로 클라이언트 재시도 폭주 막기레이트리밋은 '막는 것'이 아니라 '안전하게 실패시키는 것'입니다.429 응답에 RateLimit 헤더(RFC 9331)와 Retry-After를 어떻게 넣어야 클라이언트 재시도 폭주를 줄일 수 있는지 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)API/HTTP 영역은 '작은 정책'이 전체 사용자 경험과 운영 비용을 바꿉니다. 그래서 실무에서는 구현보다도 기준(정책)과 검증 루프가 중요합니다.특히 프록시/CDN/게이트웨이가 있는 환경에서는 서버 코드만 보면 원인을 놓치기 쉽습니다. 레이어를 같이..
API 에러 응답 표준화: RFC 9457 Problem Details로 error format 통일하기에러 응답이 엔드포인트마다 다르면, 프론트는 화면마다 예외 처리를 다시 씁니다.RFC 9457(Problem Details)을 기준으로 에러 포맷을 통일하고, 운영에서 디버깅이 쉬워지는 형태로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)API/HTTP 영역은 '작은 정책'이 전체 사용자 경험과 운영 비용을 바꿉니다. 그래서 실무에서는 구현보다도 기준(정책)과 검증 루프가 중요합니다.특히 프록시/CDN/게이트웨이가 있는 환경에서는 서버 코드만 보면 원인을 놓치기 쉽습니다. 레이어를 같이 정리해..
gRPC와 REST를 같이 운영하기: REST Transcoding(grpc-gateway) 설계 포인트내부는 gRPC로 빠르게, 외부는 REST로 친절하게. 이 조합은 현실적으로 자주 쓰입니다.REST transcoding을 쓸 때 깨지기 쉬운 지점(버전/에러/문서화)을 설계 포인트로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)API/HTTP 영역은 '작은 정책'이 전체 사용자 경험과 운영 비용을 바꿉니다. 그래서 실무에서는 구현보다도 기준(정책)과 검증 루프가 중요합니다.특히 프록시/CDN/게이트웨이가 있는 환경에서는 서버 코드만 보면 원인을 놓치기 쉽습니다. 레이어를 같이 정리해두면 같은..
Kubernetes 로그 수집 파이프라인: Fluent Bit로 멀티라인/파서/필터 운영하기로그가 쌓인다고 관측이 되는 건 아닙니다. 파싱/필터링/PII 마스킹이 같이 필요합니다.Fluent Bit를 기준으로 K8s 로그 수집 운영 포인트를 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)로그가 쌓인다고 관측이 되는 건 아닙니다. 파싱/필터링/PII 마스킹이 같이 필요합..
CDN 캐시 키 설계 실전: 쿼리스트링/헤더/쿠키를 캐시 키에 넣는 기준CDN을 붙였는데도 느리다면, 대부분 캐시 키가 잘못돼서 적중률이 낮습니다.캐시 키 설계를 '넣을 것/빼야 할 것' 기준으로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)CDN을 붙였는데도 느리다면, 대부분 캐시 키가 잘못돼서 적중률이 낮습니다.캐시 키 설계를 '넣을 것/빼야 할 것' 기준으로 정..
API Gateway vs BFF 패턴: 라우팅/인증/집계를 어디에 둘까(실무 선택 기준)게이트웨이에 모든 걸 넣으면 거대한 단일 장애 지점이 되고, BFF를 남발하면 중복이 폭발합니다.API Gateway와 BFF의 책임 경계를 '실무 기준'으로 나눠 봅니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)API/HTTP 영역은 '작은 정책'이 전체 사용자 경험과 운영 비용을 바꿉니다. 그래서 실무에서는 구현보다도 기준(정책)과 검증 루프가 중요합니다.특히 프록시/CDN/게이트웨이가 있는 환경에서는 서버 코드만 보면 원인을 놓치기 쉽습니다. 레이어를 같이 정리해두면 같은 장애를 반복하지 않게 됩니다.실전 내..
