본문 바로가기

소프트웨어 이야기/데이터 저장소 + 시각화

[카우치베이스]Insert와 Select의 시간차 금일 과제를 진행하면서 카우치베이스에서 Insert를 하고난 직후에 Select를 하면 Insert했던 값이 반영이 안되는 이슈가 있었다. 왜 그럴까? 이유를 확인한다면 이걸 수정하려면 어떻게 해야할까? 궁금했다. 왜 그럴까?1. insert의 메모리 객체 반영론카우치베이스의 Insert 메서드(add)는 데이터가 디스크에 완전히 반영되기 전에 메모리 객체에 반영되고 나면 성공 메시지를 되돌려 준다. 입력된 데이터는 디스크에 저장되고, 이 데이터가 다시 복제 설정된 개수만큼 다른 노드로 복사되게 된다. >즉, 디스크에 값이 저장되기 전에 true를 리턴해줘서, select를 할 때 직전에 insert 한 값이 바로 반영이 안되었던 거다. (그렇다면 select는 디스크에 직접 접근해서 계산해온다는 거겠지..
[SPARK]SQLContext / 데이터 프레임에 SQL 날리기 ! SQLContextSparkContext는 Spark SQL을 사용할 때, 시작 지점이라고 볼 수 있다. Spark SQL을 사용할 땐 SparkContext 클래스이거나, 이와 관련된 자식 클래스의 하나일 것이다. 음.. 헷갈린다...암튼... json / csv / parquet 등등의 파일들로 변환된 로그성 데이터들에 SQL문을 날려서 분석하고 싶을 때면 아래의 방식을 사용한다. // 파케이 파일을 읽어온다! 그런데 SQL Context로 읽어온 데이터들은 다 데이터 프레임이다 ! val parquetFile = sqlContext.read.parquet("people.parquet") //파케이 파일을 SQL statement를 날릴 수 있게, 테이블로 등록해준다! parquetFile.regis..
[스파크]DataFrame DataFrame데이터 프레임이란 관계형 데이터베이스의 테이블과 R과 파이썬의 데이터 프레임과 같은 개념이다. (데이터 프레임은 2차원의 배열 구조로 구성되어있다.) DataFrame 특징Spark SQL 옵티마이저로 데이터를 추출할 수 있고, optimization(최적화)를 할 수 있다.자바, 스칼라, R API 함수로 조작할 수 있다. 스파크에서 DataFrame 만들기스파크에서는 구조화된 데이터 파일, HIVE의 테이블, 외부 데이터베이스, RDD의 배열로 데이터프레임을 만들 수 있다. 그리고 Spark SQL을 사용할 때, SQL으로 반환되는 값의 유형은 데이터프레임이다.아래는 공식홈페이지에서 가져온 데이터프레임 만들기 스칼라 예시이다.val sc: SparkContext // An existi..
[Mac]요세미티에 스파크 설치하기 1. JAVA 설치하기오라클 JDK 다운로드 페이지에서 Oracle Java SE Development Kit 7 혹은 8을 설치한다. -> JAVA jdk 8 설치 링크 >참고 : MAC에 JDK 설치하기 2. JAVA HOME 설정하기터미널에 JAVA HOME을 설정하는 아래의 명령어를 입력한다.export JAVA_HOME=$(/usr/libexec/java_home) 그리고 터미널에 아래 명령문을 입력하여 정상적으로 설정되었는지 확인한다.echo $JAVA_HOME요렇게! 3. Homebrew 설치하기터미널에 아래의 명령어를 쳐서 Homebrew를 설치한다. ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/maste..
[MySQL][Out Of Range] sql_mode Strict Type과 아닌 것의 차이 참고 - [Mysql]Out-Of-Range and Overflow Handling 어느날 이런 이슈가 있었다.MySql에 int type으로 설정한 컬럼이 있었다.그런데 테스트용 DB에서는 int에서 허용하는 값의 범위를 초과할 경우, Warn 경고를 주면서 알아서 값을 줄여줬다. (Mysql에서 Int가 허용하는 값은 -2147483648 ~ 2147483647 사이이다. 즉 Int로 타입이 선언된 컬럼에 2147483648 이상의 값을 저장하면, 2147483647의 값이 저장된다.) 그런데 같은 테이블을 백업해둔 다른 DB에서는 int에서 허용하는 값 이상을 저장하면 Out-of-Range Mysql error가 나면서, 알아서 값을 줄여주지 않았다. 두개의 DB가 데이터 오버플로우에 대한 처리 ..