반응형
SPARK에서 저장소(HDFS, Hive 등)에 접근하는 방식
(1) 저장소 바로 접근
- HDFS, S3 등의 저장소를 지원한다.
(2) hive metastore
- hive metastore를 통해 저장소에 접근한다.
- 저장소에 저장된 hive 테이블을 사용할 수 있다.
(3) spark thrift server
- jdbc/odbc 프로토콜을 통해 접속한다.
- 이후 metastore를 통해 저장소에 접근한다.
- 저장소에 저장된 hive 테이블을 사용할 수 있다.
참고링크
Using Spark SQL - Hortonworks Data Platform
Using SQLContext, Apache Spark SQL can read data directly from the file system. This is useful when the data you are trying to analyze does not reside in Apache Hive (for example, JSON files stored in HDFS). Using HiveContext, Spark SQL can also read data
docs.cloudera.com
반응형
'BigData 기술 > Spark' 카테고리의 다른 글
[spark] spark에서 phoenix 테이블 읽고쓰기 (scala) (8) | 2021.01.14 |
---|---|
[spark] spark streaming + kafka (547) | 2020.08.10 |
[Spark] Spark 예제 - 데이터 로딩, 조인, 필터링, 정렬 (4) | 2020.07.10 |
[Spark] Spark 예제 - 고객별 구매횟수, 구매금액 등 구해보기 (count, sum, sort) (4) | 2020.07.06 |
[Spark] Spark 예제 - json 데이터에서 원하는 데이터만 추출 (2) | 2020.06.25 |
댓글