-->

https://tv.naver.com/v/33919001

 

NAVER D2

싸늘하다, 메신저에 경보가 날아와 꽂힌다 - 네이버 검색 SRE 시스템 개선기

tv.naver.com

 

발표 요약

: 장애 대응 최적화를 위한 네이버 검색엔진 시스템의 개선기 소개

 

AS IS - TO BE

[AS-IS] 배치 구조의 모니터링 시스템 [TO-BE] 스트리밍 구조의 모니터링 시스템
  • 장점:
    • 일정 주기로 데이터를 수집하고 처리하기 때문에 일괄 처리가 가능합니다.
    • 대용량 데이터를 처리할 때 적합합니다.
    • 수집된 데이터를 미리 가공하고 처리할 수 있어서 데이터 분석에 유용합니다.
    • 배치 작업은 예약 시간에 자동으로 수행될 수 있어서 운영과 관리가 편리합니다.
  • 단점:
    • 데이터 수집 주기가 길다보니 데이터 처리 결과를 빠르게 반영할 수 없습니다.
    • 대용량 데이터 처리가 일정 시간 내에 불가능할 경우, 딜레이가 발생할 수 있습니다.
    • 대규모 트래픽의 경우, 데이터 수집과 처리가 지연될 수 있습니다.
  • 장점:
    • 실시간으로 데이터를 처리할 수 있어서 대용량 데이터 처리에 용이합니다.
    • 데이터 처리 결과를 실시간으로 확인할 수 있어서 이상 상황을 빠르게 파악할 수 있습니다.
    • 데이터 수집 주기가 짧기 때문에 데이터 처리 결과를 빠르게 반영할 수 있습니다.
    • 대규모 트래픽을 처리할 수 있습니다.
  • 단점:
    • 데이터 처리를 위한 하드웨어나 소프트웨어의 설계나 운영이 복잡합니다.
    • 대용량 데이터를 처리할 때에도 일정 시간 내에 모든 데이터를 처리하지 못할 수 있습니다.
    • 데이터 처리에 필요한 인프라 및 기술적인 요구 사항이 매우 높습니다.

 

기존은 각 프로세스의 배치 주기가 있기 때문에 이상 징후를 탐지하기 위한 시간 딜레이가 의사결정을 하는데도 영향을 주며 이로 인한 사용자들에게 장애 피해 발생.

 

기존 시스템의 문제점

1.기존 경보 시스템은 라벨을 직접 생성해서 모니터링 DB에 저장하고 있으며 다시 DB를 조회해 경보를 발송하고 있었음.

→ 이를 지표수집기가 자동으로 라벨을 생성하고 시계열 데이터 베이스에 저장하여 경보 발송.

 

2.전체 경보 처리가 될 때까지 경보 발송에 지연이 생기는 구조

→ 메세지큐 도입으로 실시간 스트리밍 처리. 기존 3분까지 걸리던 파이프라인을 1분 미만으로 단축.

 

3. 사용자 요청에 따라 쿼리를 조절할 수 없는 문제, 지표가 어떤 과정으로 계산된 것인지 알기 어려운 문제 등 존재

→ 시계열 DB를 활용해서 개발 편의성 개선 및 쿼리 커스텀 기능 제공

개발 편의성 개선
- 지표 계산을 위한 로직을 고수준 쿼리에서 처리 → 간결성
- TSDB 쿼리 및 템플릿들을 테이블로 관리 → 선언성
쿼리 커스텀 기능 제공
- 사용자 요청 시점에 TSDB로부터 지표 조회 → 실시간성
- 텍스트 템플릿을 사용한 TSDB 쿼리 변형 → 유연성

 

4. 기존 텍스트 템플릿은 사용자 요청에 따라 동적 쿼리 변경을 목적으로 하지만 중복이 생길 수 있고 핸들링하기에 시간 소요가 많음.

→ Victoria Metrics의 MetricsQL을 적용하므로써 강력한 기능인 With 템플릿을 사용하여 해결

 

위의 개선이 이루어지더라도 네이버같이 수천만이 이용하는 서비스에서는 TSDB 사용시 속도저하가 일어날 수 밖에 없음..따라서 API Server와 TSDB간의 성능개선 실시

오컴의 면도날(Occam's Razor)은 복잡한 현상을 설명할 때, 그 현상을 가장 적은 가정과 개념으로 설명하려는 원칙. 즉, "가장 간단한 설명이 가장 그럴듯한 설명이다" 라는 뜻

 

 

'테크 행사' 카테고리의 다른 글

Data pipeline with Open Source Kafka  (0) 2024.10.25
KotlinConf'24 Global in South Korea  (2) 2024.10.25
World IT Show 2024  (2) 2024.10.25
PostgreSQL Meetup SEOUL  (0) 2024.10.24
인포그램 x GitLap DevOps 밋업  (0) 2024.10.24

+ Recent posts