
Troubleshooting 22
원인 불명 CPU사용량 급증에 대처했던 방법 (3)
1년 전 끝까지 파보지 못했던 CPU 급증 문제를 AI와 함께 다시 분석해봤습니다. 당시 남겨뒀던 의문들에 대해 더 깊은 답을 찾아가는 회고입니다.

1년 전 끝까지 파보지 못했던 CPU 급증 문제를 AI와 함께 다시 분석해봤습니다. 당시 남겨뒀던 의문들에 대해 더 깊은 답을 찾아가는 회고입니다.

Beanstalk 인스턴스에서 원인불명의 CPU 사용량 급증 문제를 perf와 strace로 분석하여 Datadog 프로파일링 시그널이 원인임을 밝혀낸 과정을 기록합니다.

CPU 급증 문제의 두 번째 패턴인 SIGSEGV 시그널 반복 현상을 분석하고, Datadog의 async-safe하지 않은 시그널 핸들러 코드를 발견하여 PR을 올리게 된 과정을 기록합니다.

Prisma 쿼리를 Datadog에서 모니터링하기 위해 OpenTelemetry 연동 중 발생한 문제를 해결하고, dd-trace 오픈소스에 PR을 올린 경험을 공유합니다.