SPARK에서 저장소(HDFS, Hive 등)에 접근하는 방식

SPARK에서 저장소(HDFS, Hive 등)에 접근하는 방식

(1) 저장소 바로 접근

HDFS, S3 등의 저장소를 지원한다.

(2) hive metastore

hive metastore를 통해 저장소에 접근한다.
저장소에 저장된 hive 테이블을 사용할 수 있다.

(3) spark thrift server

jdbc/odbc 프로토콜을 통해 접속한다.
이후 metastore를 통해 저장소에 접근한다.
저장소에 저장된 hive 테이블을 사용할 수 있다.

참고링크

Using Spark SQL - Hortonworks Data Platform

Using SQLContext, Apache Spark SQL can read data directly from the file system. This is useful when the data you are trying to analyze does not reside in Apache Hive (for example, JSON files stored in HDFS). Using HiveContext, Spark SQL can also read data

docs.cloudera.com

'BigData 기술 > Spark' 카테고리의 다른 글

[spark] spark에서 phoenix 테이블 읽고쓰기 (scala) (8)	2021.01.14
[spark] spark streaming + kafka (547)	2020.08.10
[Spark] Spark 예제 - 데이터 로딩, 조인, 필터링, 정렬 (4)	2020.07.10
[Spark] Spark 예제 - 고객별 구매횟수, 구매금액 등 구해보기 (count, sum, sort) (4)	2020.07.06
[Spark] Spark 예제 - json 데이터에서 원하는 데이터만 추출 (2)	2020.06.25

차곡차곡

SPARK에서 저장소(HDFS, Hive 등)에 접근하는 방식

SPARK에서 저장소(HDFS, Hive 등)에 접근하는 방식

(1) 저장소 바로 접근

(2) hive metastore

(3) spark thrift server

참고링크

'BigData 기술 > Spark' 카테고리의 다른 글

댓글

티스토리툴바

SPARK에서 저장소(HDFS, Hive 등)에 접근하는 방식

SPARK에서 저장소(HDFS, Hive 등)에 접근하는 방식

(1) 저장소 바로 접근

(2) hive metastore

(3) spark thrift server

참고링크

'BigData 기술 > Spark' 카테고리의 다른 글

관련글

댓글

티스토리툴바