본문 바로가기

소프트웨어-이야기/데이터 저장소 + 시각화

[SPARK]SQLContext / 데이터 프레임에 SQL 날리기 !

SQLContext

SparkContext는 Spark SQL을 사용할 때, 시작 지점이라고 볼 수 있다. Spark SQL을 사용할 땐 SparkContext 클래스이거나, 이와 관련된 자식 클래스의 하나일 것이다. 


음.. 헷갈린다...

암튼... json / csv / parquet 등등의 파일들로 변환된 로그성 데이터들에 SQL문을 날려서 분석하고 싶을 때면 아래의 방식을 사용한다.


// 파케이 파일을 읽어온다! 그런데 SQL Context로 읽어온 데이터들은 다 데이터 프레임이다 ! 
val parquetFile = sqlContext.read.parquet("people.parquet")

//파케이 파일을 SQL statement를 날릴 수 있게, 테이블로 등록해준다! 
parquetFile.registerTempTable("parquetFile")
val teenagers = sqlContext.sql("SELECT name FROM parquetFile WHERE age >= 13 AND age <= 19")


끝..!