| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- CSS
- NextJS
- Kubernetes
- Debugging
- reliability
- Ops
- Infra
- version-control
- backend
- Microservices
- CI
- JavaScript
- SRE
- aws
- web
- Security
- API
- Git
- Operations
- HTTP
- DevOps
- auth
- 버전관리
- Performance
- react
- architecture
- frontend
- observability
- 성능
- database
- Today
- Total
목록observability (14)
고민보단 실천을
Kafka Consumer 리밸런스 튜닝: 처리량 떨어지는 원인과 설정 체크리스트Kafka는 처음엔 잘 돌다가, 데이터가 늘거나 배포가 잦아지면 리밸런스가 반복되며 처리량이 흔들린다.대표 원인poll 처리가 너무 오래 걸린다(heartbeat 끊김).배포/스케일로 멤버 수가 바뀐다(재할당).네트워크/GC pause로 session timeout을 넘는다.핵심 설정(개념)max.poll.interval.ms: poll 사이(처리 포함) 최대 허용 시간session.timeout.ms: heartbeat 없을 때 추방까지heartbeat.interval.ms: heartbeat 주기poll 루프를 오래 잡지 않는 패턴poll은 자주, 처리는 워커(스레드/코루틴)로 넘긴다.max.poll.records로 한 ..
배포 전략 비교: Rolling vs Blue-Green vs Canary, 언제 무엇을 선택할까배포 전략은 예쁜 그림이 아니라 장애 반경과 롤백 속도를 결정한다.한 줄 요약Rolling: 기본값. 혼종 상태가 생겨 검증이 어렵다.Blue-Green: 스위치 기반. 롤백이 빠르지만 비용이 든다.Canary: 일부 트래픽만 새 버전. 관측/판단 체계가 필요하다.Kubernetes Deployment(rollingUpdate) 예시spec: strategy: type: RollingUpdate rollingUpdate: maxSurge: 25% maxUnavailable: 0배포 판단 지표 예시에러율: 5xx 비율, 핵심 API 실패율지연: p95/p99, 타임아웃 비율비즈니스..
Prometheus scrape/relabeling 실전: 지표 라벨 폭발을 막고 쿼리를 빠르게 만드는 법Prometheus가 느려지고 비용이 늘어나는 가장 흔한 이유는 '라벨 폭발'입니다.scrape/relabeling으로 지표를 운영 가능한 형태로 정리하는 방법을 실무 기준으로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)Prometheus가 느려지고 비용이 늘어..
API 에러 응답 표준화: RFC 9457 Problem Details로 error format 통일하기에러 응답이 엔드포인트마다 다르면, 프론트는 화면마다 예외 처리를 다시 씁니다.RFC 9457(Problem Details)을 기준으로 에러 포맷을 통일하고, 운영에서 디버깅이 쉬워지는 형태로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)API/HTTP 영역은 '작은 정책'이 전체 사용자 경험과 운영 비용을 바꿉니다. 그래서 실무에서는 구현보다도 기준(정책)과 검증 루프가 중요합니다.특히 프록시/CDN/게이트웨이가 있는 환경에서는 서버 코드만 보면 원인을 놓치기 쉽습니다. 레이어를 같이 정리해..
Kubernetes 로그 수집 파이프라인: Fluent Bit로 멀티라인/파서/필터 운영하기로그가 쌓인다고 관측이 되는 건 아닙니다. 파싱/필터링/PII 마스킹이 같이 필요합니다.Fluent Bit를 기준으로 K8s 로그 수집 운영 포인트를 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)로그가 쌓인다고 관측이 되는 건 아닙니다. 파싱/필터링/PII 마스킹이 같이 필요합..
Webhook 서버 설계: 서명 검증, 재시도, 중복 처리, 순서 보장 체크리스트목표: 이 글을 읽고 나면 "어떤 선택이 우리 팀에 맞는지"를 기준으로 정할 수 있고, "바로 적용할 체크리스트"를 가져갈 수 있게 만드는 것입니다.전제: 인기 있는 글은 "개념"보다 "결정"과 "실수 방지"에 시간을 씁니다. 그래서 이 글은 설명을 길게 늘리기보다, 기준/예시/검증 순서로 정리합니다.이 글이 필요한 사람API 계약이 자주 깨져서(혹은 깨질까봐) 변경을 두려워하는 팀성능/운영 이슈가 나는데 원인이 '네트워크/헤더/캐시/정책' 쪽인지 헷갈리는 상황문서를 '참고'가 아니라 '계약'으로 쓰고 싶은 팀추천 기본값(실무에서 안전한 시작점)정책(기준)을 먼저 정하고, 구현/도구는 그 다음에 선택한다관측(로그/지표)을 먼..
로그 설계 실전: 구조화 로그(JSON), correlation id, 민감정보 마스킹목표: 이 글을 읽고 나면 "어떤 선택이 우리 팀에 맞는지"를 기준으로 정할 수 있고, "바로 적용할 체크리스트"를 가져갈 수 있게 만드는 것입니다.전제: 인기 있는 글은 "개념"보다 "결정"과 "실수 방지"에 시간을 씁니다. 그래서 이 글은 설명을 길게 늘리기보다, 기준/예시/검증 순서로 정리합니다.이 글이 필요한 사람API 계약이 자주 깨져서(혹은 깨질까봐) 변경을 두려워하는 팀성능/운영 이슈가 나는데 원인이 '네트워크/헤더/캐시/정책' 쪽인지 헷갈리는 상황문서를 '참고'가 아니라 '계약'으로 쓰고 싶은 팀추천 기본값(실무에서 안전한 시작점)정책(기준)을 먼저 정하고, 구현/도구는 그 다음에 선택한다관측(로그/지표)..
gRPC 실전 가이드: Protobuf, Deadline, Retry, Streaming 설계 포인트목표: 이 글을 읽고 나면 "어떤 선택이 우리 팀에 맞는지"를 기준으로 정할 수 있고, "바로 적용할 체크리스트"를 가져갈 수 있게 만드는 것입니다.전제: 인기 있는 글은 "개념"보다 "결정"과 "실수 방지"에 시간을 씁니다. 그래서 이 글은 설명을 길게 늘리기보다, 기준/예시/검증 순서로 정리합니다.이 글이 필요한 사람API 계약이 자주 깨져서(혹은 깨질까봐) 변경을 두려워하는 팀성능/운영 이슈가 나는데 원인이 '네트워크/헤더/캐시/정책' 쪽인지 헷갈리는 상황문서를 '참고'가 아니라 '계약'으로 쓰고 싶은 팀추천 기본값(실무에서 안전한 시작점)정책(기준)을 먼저 정하고, 구현/도구는 그 다음에 선택한다관..
GraphQL 성능 튜닝: N+1, DataLoader, Persisted Queries로 느림 잡기목표: 이 글을 읽고 나면 "어떤 선택이 우리 팀에 맞는지"를 기준으로 정할 수 있고, "바로 적용할 체크리스트"를 가져갈 수 있게 만드는 것입니다.전제: 인기 있는 글은 "개념"보다 "결정"과 "실수 방지"에 시간을 씁니다. 그래서 이 글은 설명을 길게 늘리기보다, 기준/예시/검증 순서로 정리합니다.이 글이 필요한 사람API 계약이 자주 깨져서(혹은 깨질까봐) 변경을 두려워하는 팀성능/운영 이슈가 나는데 원인이 '네트워크/헤더/캐시/정책' 쪽인지 헷갈리는 상황문서를 '참고'가 아니라 '계약'으로 쓰고 싶은 팀추천 기본값(실무에서 안전한 시작점)정책(기준)을 먼저 정하고, 구현/도구는 그 다음에 선택한다관..
