본문 바로가기

관심사/독후감

<마틴 클러스만> 데이터 중심 애플리케이션 설계

01장. 신뢰할 수 있고 확장 가능하며 유지보수하기 쉬운 애플리케이션

트위터의 데이터 파이프라인 사례 

꼬리 지연 시간

상위 백분위 응답 시간은 서비스의 사용자 경험에 직접 영향을 주기 때문에 중요하다. 예를 들어 아마존은 내부 서비스의 응답 시간 요구사항을 99.9분위로 기술한다. 99.9분위는 요청 1000개 중 1개만 영향이 있음에도 말이다. 보통 응답 시간이 가장 느린 요청을 경험한 고객들은 많은 구매를 해서 고객 중에서 계정에 가장 많은 데이터를 갖고 있어서다. 즉, 이 고객들은 가장 소중한 고객이다. 

03. 저장소와 검색

트랜잭션 처리나 분석?

애플리케이션에서 색인을 사용해 일부 키에 대한 적은 수의 레코드의 찾고, 데이터를 추가하고 갱신하는 접근 패턴을 OTLP ( Online Transaction Processing )이라고 한다. 

데이터 웨어하우징

데이터 웨어하우스는 분석가들이 OLTP 작업에 영향을 주지 않고 마음껏 질의할 수 있는 개별 데이터베이스다.

데이터 웨어하우스는 회사 내의 OLTP 시스템에 있는 데이터의 읽기 전용 복사본이다. 

ETL

OLTP 데이터베이스에서 Extract(추출)하고, 분석 친화적인 스키마로 Transform(변환)하고, 깨끗하게 정리한 다음 데이터 웨어하우스에 적재 (Load)한다. 데이터 웨어하우스로 데이터를 가져오는 이 과정을 ETL이라 한다.