| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- Ops
- Kubernetes
- CSS
- 버전관리
- architecture
- observability
- Operations
- API
- web
- Performance
- HTTP
- PostgreSQL
- backend
- auth
- frontend
- react
- Security
- 성능
- JavaScript
- SRE
- NextJS
- Debugging
- aws
- database
- Git
- version-control
- CI
- DevOps
- reliability
- Infra
- Today
- Total
목록Infra (18)
고민보단 실천을
Terraform 운영 실전: remote state, state lock, drift 감지로 사고 줄이기Terraform 사고의 대부분은 코드가 아니라 state 운영에서 시작합니다.remote state, state lock, drift 감지를 기본값으로 두는 운영 방법을 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)Terraform 사고의 대부분은 코드가 아니라..
서비스 간 인증 실전: mTLS vs JWT, 어떤 경계에서 무엇이 맞나서비스 간 인증은 '누가 호출했나'를 증명하는 문제입니다. 방식은 팀의 경계에 따라 달라집니다.mTLS와 JWT를 언제 어떤 조합으로 쓰는지 실무 기준으로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)보안은 '켜면 끝'이 아니라, 환경(도메인/HTTPS/프록시)과 결합된 실제 동작이 중요합니다. 그래서 단계적 도입과 관측이 핵심입니다.보안 설정은 예외가 생기기 쉬우므로, 예외를 '운영 프로세스'로 관리(만료/승인/감사)하지 않으면 시간이 지날수록 사고 확률이 커집니다.실전 내용(바로 적용)서비스 간 인증은 '누가 호출했나'를..
Kubernetes Taints/Tolerations 실전: 특정 워크로드를 전용 노드에 격리하는 법특정 워크로드(배치/ML/로그)가 전체 노드를 흔들면, 결국 '격리'가 필요합니다.Taints/Tolerations로 전용 노드를 만드는 기본 패턴을 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)특정 워크로드(배치/ML/로그)가 전체 노드를 흔들면, 결국 '격리'가 필..
Kubernetes 시크릿 운영: Secret vs External Secrets(Secrets Manager) 무엇을 언제 쓰나시크릿은 저장하는 것보다 '로테이션'이 더 어렵습니다.K8s Secret과 External Secrets(Secrets Manager/Vault) 조합을 실무 기준으로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)시크릿은 저장하는 것보다 '..
Kubernetes QoS 클래스(Guaranteed/Burstable/BestEffort)와 Eviction: OOM이 왜 특정 Pod만 죽이나같은 노드에서 OOM이 났는데 왜 어떤 Pod만 죽는지, QoS 클래스를 알면 설명이 됩니다.Guaranteed/Burstable/BestEffort의 의미와 eviction 우선순위를 실무 관점으로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다...
PodDisruptionBudget(PDB) 실전: 노드 교체/업그레이드 중 장애를 막는 최소 설정PDB가 없으면 노드 교체/업그레이드 때 '정상'인데도 서비스가 비는 순간이 생깁니다.minAvailable/maxUnavailable을 어떻게 잡아야 안전한지 실무 기준으로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)PDB가 없으면 노드 교체/업그레이드 때 '정상'인..
Kubernetes NetworkPolicy 입문: 기본 차단(deny-all)부터 안전하게 적용하기NetworkPolicy는 켜는 순간 트래픽이 끊길 수 있어서, '한 번에' 하면 실패합니다.deny-all부터 최소 허용으로 이동하는 안전한 적용 순서를 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)NetworkPolicy는 켜는 순간 트래픽이 끊길 수 있어서, '한..
Kubernetes Ingress 실전: TLS, path rewrite, timeout 설정에서 자주 터지는 문제Ingress는 '라우팅 설정' 같지만, 실제로는 운영 사고의 시작점이 되기 쉽습니다.TLS, rewrite, timeout, body size에서 자주 터지는 포인트를 체크리스트로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)Ingress는 '라우팅 설..
HPA vs Cluster Autoscaler 차이: Pod 스케일과 노드 스케일을 같이 맞추는 법HPA를 켰는데도 스케일이 안 되는 이유는, 결국 '노드가 없다'일 때가 많습니다.HPA(파드)와 Cluster Autoscaler(노드)의 역할 차이와 운영 포인트를 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)HPA를 켰는데도 스케일이 안 되는 이유는, 결국 '노드가..
