본문 바로가기

소프트웨어 이야기/데이터 저장소 + 시각화

[스파크]DataFrame DataFrame데이터 프레임이란 관계형 데이터베이스의 테이블과 R과 파이썬의 데이터 프레임과 같은 개념이다. (데이터 프레임은 2차원의 배열 구조로 구성되어있다.) DataFrame 특징Spark SQL 옵티마이저로 데이터를 추출할 수 있고, optimization(최적화)를 할 수 있다.자바, 스칼라, R API 함수로 조작할 수 있다. 스파크에서 DataFrame 만들기스파크에서는 구조화된 데이터 파일, HIVE의 테이블, 외부 데이터베이스, RDD의 배열로 데이터프레임을 만들 수 있다. 그리고 Spark SQL을 사용할 때, SQL으로 반환되는 값의 유형은 데이터프레임이다.아래는 공식홈페이지에서 가져온 데이터프레임 만들기 스칼라 예시이다.val sc: SparkContext // An existi..
[Mac]요세미티에 스파크 설치하기 1. JAVA 설치하기오라클 JDK 다운로드 페이지에서 Oracle Java SE Development Kit 7 혹은 8을 설치한다. -> JAVA jdk 8 설치 링크 >참고 : MAC에 JDK 설치하기 2. JAVA HOME 설정하기터미널에 JAVA HOME을 설정하는 아래의 명령어를 입력한다.export JAVA_HOME=$(/usr/libexec/java_home) 그리고 터미널에 아래 명령문을 입력하여 정상적으로 설정되었는지 확인한다.echo $JAVA_HOME요렇게! 3. Homebrew 설치하기터미널에 아래의 명령어를 쳐서 Homebrew를 설치한다. ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/maste..
[MySQL][Out Of Range] sql_mode Strict Type과 아닌 것의 차이 참고 - [Mysql]Out-Of-Range and Overflow Handling 어느날 이런 이슈가 있었다.MySql에 int type으로 설정한 컬럼이 있었다.그런데 테스트용 DB에서는 int에서 허용하는 값의 범위를 초과할 경우, Warn 경고를 주면서 알아서 값을 줄여줬다. (Mysql에서 Int가 허용하는 값은 -2147483648 ~ 2147483647 사이이다. 즉 Int로 타입이 선언된 컬럼에 2147483648 이상의 값을 저장하면, 2147483647의 값이 저장된다.) 그런데 같은 테이블을 백업해둔 다른 DB에서는 int에서 허용하는 값 이상을 저장하면 Out-of-Range Mysql error가 나면서, 알아서 값을 줄여주지 않았다. 두개의 DB가 데이터 오버플로우에 대한 처리 ..