'2026/03/28 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2026/03/28 (4)

고민보단 실천을

MySQL 온라인 스키마 변경: pt-online-schema-change vs gh-ost 선택 기준과 운영 함정

MySQL 온라인 스키마 변경: pt-online-schema-change vs gh-ost 선택 기준과 운영 함정MySQL 스키마 변경은 트래픽이 있으면 곧 장애가 될 수 있습니다.pt-osc와 gh-ost의 차이, 그리고 운영에서 터지는 함정을 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)MySQL 스키마 변경은 트래픽이 있으면 곧 장애가 될 수 있습니다.pt-o..

카테고리 없음 2026. 3. 28. 20:59

Kubernetes Taints/Tolerations 실전: 특정 워크로드를 전용 노드에 격리하는 법

Kubernetes Taints/Tolerations 실전: 특정 워크로드를 전용 노드에 격리하는 법특정 워크로드(배치/ML/로그)가 전체 노드를 흔들면, 결국 '격리'가 필요합니다.Taints/Tolerations로 전용 노드를 만드는 기본 패턴을 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)특정 워크로드(배치/ML/로그)가 전체 노드를 흔들면, 결국 '격리'가 필..

카테고리 없음 2026. 3. 28. 19:59

Kubernetes 시크릿 운영: Secret vs External Secrets(Secrets Manager) 무엇을 언제 쓰나

Kubernetes 시크릿 운영: Secret vs External Secrets(Secrets Manager) 무엇을 언제 쓰나시크릿은 저장하는 것보다 '로테이션'이 더 어렵습니다.K8s Secret과 External Secrets(Secrets Manager/Vault) 조합을 실무 기준으로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다.실전 내용(바로 적용)시크릿은 저장하는 것보다 '..

카테고리 없음 2026. 3. 28. 14:59

Kubernetes QoS 클래스(Guaranteed/Burstable/BestEffort)와 Eviction: OOM이 왜 특정 Pod만 죽이나

Kubernetes QoS 클래스(Guaranteed/Burstable/BestEffort)와 Eviction: OOM이 왜 특정 Pod만 죽이나같은 노드에서 OOM이 났는데 왜 어떤 Pod만 죽는지, QoS 클래스를 알면 설명이 됩니다.Guaranteed/Burstable/BestEffort의 의미와 eviction 우선순위를 실무 관점으로 정리합니다.이 글의 목표는 '개념 정리'보다, "어떤 기준으로 결정할지"와 "어떻게 운영에서 사고를 줄일지"를 남기는 것입니다.왜 이게 어려운가(운영 관점)운영 이슈는 대부분 한 설정이 아니라 '정렬되지 않은 설정 조합'에서 나옵니다(타임아웃, 종료, 리소스, 재시도).따라서 증상 -> 원인 -> 검증 루틴을 팀 표준으로 만들면, 장애 대응 시간이 크게 줄어듭니다...

카테고리 없음 2026. 3. 28. 13:59

Prev 1 Next

목록2026/03/28 (4)

고민보단 실천을

티스토리툴바