본문 바로가기
반응형

BigData 기술/Spark15

RDS -> Spark(AWS EMR) -> Neo4jDB 0. 네트워크 구성 (VPC 생성) 탄력적 ip 생성 (public IP) VPC 생성 Subnet (Public, Private) 생성 EMR EC2 보안그룹에서 인바운드 규칙 편집 (노트북에서 EMR EC2에 접속하기 위해 필요함) 1. EMR 구성 소프트웨어 구성 hadoop, spark, zeppeplin, hue, oozie 멀티마스터 구성 멀티마스터 체크 시 알아서 zookeeper 구성될 것임 AWS Glue 데이터 카탈로그 설정 Hive metastore 기반 인스턴스 구성 마스터(NN, RM, ZK, zeppelin), 코어(DN, NM), 태스크(NM) 코어 최소 1개는 필요함. yarn 띄울 때 필요한 라이브러리를 DN에 저장해야 하기 때문임 온디맨드 유형 / 스팟 유형 소프트웨어 설.. 2021. 8. 15.
[spark] spark에서 phoenix 테이블 읽고쓰기 (scala) spark에서 zookeeper를 통해 phoenix 테이블에 접근하는 방법을 정리한다. 1. Spark에서 Phoenix 테이블 읽기 import org.apache.spark.sql.SQLContext import org.apache.spark.sql.SaveMode val sqlContext = new SQLContext(sc) val df = sqlContext.load("org.apache.phoenix.spark",Map("table" -> "SUNNY_TEST", "zkUrl" -> "10.220.193.119:2181")) df.show() // orc로 지정안하면 디폴트가 파케이파일포맷. // 그럼 hive 파일 포맷 아니라면서 에러 뜸 df.write.mode(SaveMode.Overw.. 2021. 1. 14.
[spark] spark streaming + kafka 개요 spark-in-action 책을 보면서 공부한 내용을 정리한다. 스파크 스트리밍에서 kafka 토픽(orders) 데이터를 읽어서 kafka 토픽(metrics)에 결과를 전송해본다. 스파크 스트리밍이란? (Spark Streaming) 스파크 스트리밍(Spark Streaming)은 다양한 데이터 소스(Kafka, HDFS 등)로부터 데이터를 받아서 실시간 스트리밍 처리를 한다. 스트리밍 데이터를 구조적으로(테이블 형태) 사용하려면 Spark Structurec Streaming을 사용한다. DStream 스파크 스트리밍에서 사용할 수 있도록 재구성한 데이터 형태를 Discretized Stream 혹은 DStream이라고 한다. StreamingContext 스파크 스트리밍에서 사용하는 객체이.. 2020. 8. 10.
SPARK에서 저장소(HDFS, Hive 등)에 접근하는 방식 SPARK에서 저장소(HDFS, Hive 등)에 접근하는 방식 (1) 저장소 바로 접근 HDFS, S3 등의 저장소를 지원한다. (2) hive metastore hive metastore를 통해 저장소에 접근한다. 저장소에 저장된 hive 테이블을 사용할 수 있다. (3) spark thrift server jdbc/odbc 프로토콜을 통해 접속한다. 이후 metastore를 통해 저장소에 접근한다. 저장소에 저장된 hive 테이블을 사용할 수 있다. 참고링크 Using Spark SQL - Hortonworks Data Platform Using SQLContext, Apache Spark SQL can read data directly from the file system. This is usefu.. 2020. 7. 31.
[Spark] Spark 예제 - 데이터 로딩, 조인, 필터링, 정렬 샘플데이터 data_products (상품데이터) 1#ROBITUSSIN PEAK COLD NIGHTTIME COLD PLUS FLU#9721.89#10 상품ID#상품이름#가격#수량? data_transaction (구매데이터) 2015-03-30#6:55 AM#51#68#1#9506.21 일자#시간#고객id#상품id#구매수량#가격 데이터 로딩 및 준비 //구매데이터 로딩 val tranFile = sc.textFile("/spark-in-action/ch04_data_transactions.txt") val tranData = tranFile.map(_.split("#")) //상품목록 로딩 val products = sc.textFile("/spark-in-action/ch04_data_product.. 2020. 7. 10.
[Spark] Spark 예제 - 고객별 구매횟수, 구매금액 등 구해보기 (count, sum, sort) 샘플데이터 2015-03-30#6:55 AM#51#68#1#9506.21 일자#시간#고객id#상품id#구매수량#가격 파일 로딩 및 고객 ID 별로 데이터 재생성하기 val tranFile = sc.textFile("/spark-in-action/ch04_data_transactions.txt") val tranData = tranFile.map(x => x.split("#")) //val tranData = tranFile.map(_.split("#")) // key : 고객ID, value : 구매기록 배열 var transByCust = tranData.map(tran => (tran(2).toInt, tran)) // transByCust.foreach(println) // (51,[Ljava.la.. 2020. 7. 6.
반응형