본문 바로가기

분류 전체보기

elasticsearch와 RDB 데이터 저장하기 #시작 오늘은 엘라스틱서치 기술 블로그에서 흥미롭게 읽었던 자료를 함께 살펴보는 시간을 가져보려고 합니다. 설명드릴 블로그 포스팅은 Keeping Elasticsearch in Sync입니다. https://www.elastic.co/kr/blog/found-keeping-elasticsearch-in-sync#the-bulk-api-a-must-for-most-applications Keeping Elasticsearch in Sync One of the trickiest parts of integrating Elasticsearch into an existing app is figuring out how to manage the flow of data from an authoritative data ..
<조영호> 오브젝트 05. 책임 할당하기 1. 클래스가 여러 이유로 변경돼야 한다면 응집도가 낮은 것이다. 변경의 이유를 기준으로 클래스를 분리해야한다. 2. 응집도가 높은 클래스는 인스턴스를 생성할 때 모든 속성을 함께 초기화한다. 반면 응집도가 낮은 클래스는 객체의 속성 중 일부만 초기화하고, 일부는 초기화되지 않은 상태로 남겨진다. 때문에 함께 초기화되는 속성들을 기준으로 클래스를 분리해야한다. 3. 모든 메서드가 객체의 모든 속성을 사용한다면 클래스의 응집도가 높다고 볼 수 있다. 반면 메서드들이 사용하는 속성에 따라 그룹이 나뉜다면 클래서의 응집도가 낮다고 볼 수 있다. 06. 메시지와 인터페이스 디미터 법칙 클래스 내부의 메서드는 아래 조건을 만족하는 인스턴스에게만 메시지를 전송해야한다. -> this 객체 / ..
(Celery) 트랜잭션이 커밋된 이후에 Celery Task 전송하기 트랜잭션 안에서 Celery Task가 호출되는 경우, 트랜잭션이 커밋되기 전에 Task가 실행될 수 있다. 이 때, Task가 커밋되지 않은 데이터를 참조하는 경우, 오류가 발생할 수 있다. 위와 같은 상황의 예시와 이를 회피하는 방법에 대해서 정리해보고자 한다. 문제상황 아래의 코드는 회원가입을 처리하는 가상의 코드이다. from django.db import transaction from coupon.util import create_welcome_coupon from mileage.util import create_welcome_mileage @transaction.atomic() def create_user(user_data): user = User.objects.create(**user_dat..
(PostgreSQL) Array Field 인덱스를 사용할 때 고려할 점 최근, PostgreSQL의 Array 데이터 타입을 사용하자는 설계 아이디어를 검증하기 위해 찾아본 자료를 정리해보고자 한다. 간단히 요약하자면, Array 데이터 타입에 인덱스를 추가하는 것은 잘못된 설계가 될 수 있다는 점이다 😳 배경 최근에 게시물에 태그를 추가하고, 태그로 게시물을 조회하는 기능을 구현해야했다. 게시물에 추가된 태그는 저장된 순서 그대로 조회가 가능해야했다. 아이디어 위의 기능을 위해 "게시물에 저장된 태그를 Array 데이터 타입"으로 저장하자는 아이디어가 제안되었다. Array 타입에 인덱스를 추가하는 것에 호의적이였던 이유 PostgreSQL의 Array 데이터 타입을 사용하자는 아이디어는 아래와 같은 편의성 때문이였다. 1. 태그 목록을 저장하고, 읽기가 용이하다. 게시물..
(GraphQL) GraphQL 개념잡기 GraphQL이란 Facebook에서 만든 어플리케이션 레이어 쿼리 언어입니다. 레이어 쿼리 언어라니.. 좀 어렵게만 들리죠. 🙄 GraphQL도 기존 HTTP 통신과 동일합니다. 필요한 자원을 좀더 유연하게 요청하고, 응답해주는 HTTP 요청 방식 표준으로 이해하면 됩니다. REST API와 뭐가 다른거지? REST API에서는 여러개의 API Path으로 자원을 식별합니다. "/post/{PK}" 이런 방식으로 말이죠. 그리고 HTTP Method으로 API의 목적을 판단합니다. ( GET, POST, PUT, PATCH, DELETE ) 그러나 GraphQL은 자원별로 API Path를 만들지 않습니다. 보통 "/graphql/" path 하나로 여러개의 자원을 한번에 조회합니다. 필요한 자원 정보..
트위터 팔로워 타임라인 시스템 분석 트위터 팔로워 서비스 특징 트위터의 액티브 유저는 3억명이상이다. 초당 600개 이상의 트윗이 생성되고, 초당 60만건 이상의 트윗 조회가 발생하고 있다. 트위터 팔로워 시스템 고려사항 읽기 요청이 헤비하다. Eventually Consistent 특성이 있다. 약간의 딜레이를 허용한다. 데이터 저장소 비용을 최적화해야한다. 준비물 1. 장기 보관용 RDB 데이터베이스 2. 인메모리 캐시용 Redis 데이터 설계 MySQL InnoDB 유실되면 안되는 정보는 RDB에 저장한다. RDB에 저장되는 데이터는 회원 / 트윗 / 팔로워 테이블 3개이다. Redis Cache 트윗 조회 요청에 빠르게 응답하기 위해, 타임라인 정보는 캐시에 저장한다. 빠른 계산을 위하여, 타임라인 캐시는 사전에 집계해둔다. 모든 ..
<마틴 클러스만> 데이터 중심 애플리케이션 설계 01장. 신뢰할 수 있고 확장 가능하며 유지보수하기 쉬운 애플리케이션 트위터의 데이터 파이프라인 사례 System design for Twitter The Architecture Twitter Uses To Deal With 150M Active Users, 300K QPS, A 22 MB/S Firehose, And Send Tweets In Under 5 Seconds 꼬리 지연 시간 상위 백분위 응답 시간은 서비스의 사용자 경험에 직접 영향을 주기 때문에 중요하다. 예를 들어 아마존은 내부 서비스의 응답 시간 요구사항을 99.9분위로 기술한다. 99.9분위는 요청 1000개 중 1개만 영향이 있음에도 말이다. 보통 응답 시간이 가장 느린 요청을 경험한 고객들은 많은 구매를 해서 고객 중에서 계정에 ..
(Django) Association Table Multiple Filter Chaining 주의사항 관계 테이블에 동일한 레벨로 여러 검색 조건을 걸어야하는 경우, 같은 관계 테이블 컬럼은 모두 같은 필터 안에 조건문을 선언해야합니다. 동일한 관계 테이블을 여러 필터에서 나눠 조회하는 경우, 2가지 문제가 발생하게 됩니다. 1. 쿼리가 기대한 대로 동작하지 않습니다. 2. 중복 테이블 조인이 발생하게 됩니다. ( T3, T4, T5 같은 테이블 알리아스가 난무하게 됩니다. 😱) 장고는 하나의 필터를 하나의 조건 세트로 인지합니다. 그래서 메서드 체이닝으로 호출된 필터를 각각 다른 조건으로 보고, 별도의 검색조건 쿼리를 만들어냅니다. 메인 테이블에 속한 컬럼에 조건을 거는 경우에는 이런 문제가 발생하지 않아요. 괜찮습니다. 글로 설명하려니 굉장히 복잡하네요. 문제가 되는 샘플 케이스를 보면 이해가 되실거..