https://tv.naver.com/v/33919001
발표 요약
: 장애 대응 최적화를 위한 네이버 검색엔진 시스템의 개선기 소개
AS IS - TO BE
[AS-IS] 배치 구조의 모니터링 시스템 | [TO-BE] 스트리밍 구조의 모니터링 시스템 |
|
|
기존은 각 프로세스의 배치 주기가 있기 때문에 이상 징후를 탐지하기 위한 시간 딜레이가 의사결정을 하는데도 영향을 주며 이로 인한 사용자들에게 장애 피해 발생.
기존 시스템의 문제점
1.기존 경보 시스템은 라벨을 직접 생성해서 모니터링 DB에 저장하고 있으며 다시 DB를 조회해 경보를 발송하고 있었음.
→ 이를 지표수집기가 자동으로 라벨을 생성하고 시계열 데이터 베이스에 저장하여 경보 발송.
2.전체 경보 처리가 될 때까지 경보 발송에 지연이 생기는 구조
→ 메세지큐 도입으로 실시간 스트리밍 처리. 기존 3분까지 걸리던 파이프라인을 1분 미만으로 단축.
3. 사용자 요청에 따라 쿼리를 조절할 수 없는 문제, 지표가 어떤 과정으로 계산된 것인지 알기 어려운 문제 등 존재
→ 시계열 DB를 활용해서 개발 편의성 개선 및 쿼리 커스텀 기능 제공
개발 편의성 개선
- 지표 계산을 위한 로직을 고수준 쿼리에서 처리 → 간결성
- TSDB 쿼리 및 템플릿들을 테이블로 관리 → 선언성
쿼리 커스텀 기능 제공
- 사용자 요청 시점에 TSDB로부터 지표 조회 → 실시간성
- 텍스트 템플릿을 사용한 TSDB 쿼리 변형 → 유연성
4. 기존 텍스트 템플릿은 사용자 요청에 따라 동적 쿼리 변경을 목적으로 하지만 중복이 생길 수 있고 핸들링하기에 시간 소요가 많음.
→ Victoria Metrics의 MetricsQL을 적용하므로써 강력한 기능인 With 템플릿을 사용하여 해결
위의 개선이 이루어지더라도 네이버같이 수천만이 이용하는 서비스에서는 TSDB 사용시 속도저하가 일어날 수 밖에 없음..따라서 API Server와 TSDB간의 성능개선 실시
오컴의 면도날(Occam's Razor)은 복잡한 현상을 설명할 때, 그 현상을 가장 적은 가정과 개념으로 설명하려는 원칙. 즉, "가장 간단한 설명이 가장 그럴듯한 설명이다" 라는 뜻
'테크 행사' 카테고리의 다른 글
Data pipeline with Open Source Kafka (0) | 2024.10.25 |
---|---|
KotlinConf'24 Global in South Korea (2) | 2024.10.25 |
World IT Show 2024 (4) | 2024.10.25 |
PostgreSQL Meetup SEOUL (0) | 2024.10.24 |
인포그램 x GitLap DevOps 밋업 (1) | 2024.10.24 |