본문 바로가기
반응형

BigData 기술/Spark15

[Spark] Spark 예제 - json 데이터에서 원하는 데이터만 추출 테스트환경 zeppelin 0.8.1 spark 2.4.0 예제 github 이벤트 관련 json 데이터를 사용한다. push 횟수가 많은 순서대로 이름을 추출하고 정렬한다. 그 중에서 특정 명단에 있는 사람들만 뽑는다. 코드 %spark //최종버전 import scala.io.Source.fromFile object App { def main(args : Array[String]) { // git push 횟수가 많은 순서대로 이름을 뽑는다. val inputPath = "/spark-in-action/2015-03-01-23.json" val ghLog = spark.read.json(inputPath) val pushes = ghLog.filter("type = 'PushEvent'") val g.. 2020. 6. 25.
[spark] 파일 한 줄씩 읽기 (scala fromFile) 테스트환경 zeppelin 0.8.1 spark 2.4.0 코드 %spark import scala.io.Source.fromFile // fromFile : hdfs 경로 안됨. 로컬 경로만 가능 val empPath = "/root/sunny/spark-in-action/ghEmployess.txt" val employees = Set() ++ ( for{ line employees.contains(user) val isEmployee = spark.udf.register("isEmpUdf", isEmp) // udf 사용하기 sql("""select isEmpUdf("NathanNg") as isEmpUdf from orderedTable limit 1""").show() 2020. 6. 24.
histogram in spark (scala) using zeppelin 스파크로 히스토그램을 만들고 그래프까지 그려본다. 실행 환경은 zeppelin 이다. 1. 샘플데이터 처리 %spark // collect : 단일 배열으로 바꿈 val lines = sc.textFile("/spark-in-action/client-ids.log") val idsStr = lines.map(line => line.split(",")) idsStr.collect // flatMap : 모든 배열 요소를 단일 컬렉션으로 만든다. (엔터 없애기) val ids = lines.flatMap(_.split(",")) ids.collect ids.collect.mkString(";") val intIds = ids.map(_.toInt) intIds.collect val uniqueIds = in.. 2020. 6. 23.
jupyter 노트북에서 pyspark 사용하기 윗 글에서 docker로 spark-hadoop-cluster를 구성했다. 여기에 jupyter 노트북을 붙여서 pyspark를 사용해본다. jupyter 노트북 역시 도커 컨테이너를 사용할 것이당. 1. jupyter용 도커 컨테이너 생성 docker run -it --name jupyter -h jupyter --net mycluster sunnydockerhub/sunny-spark-hadoop-cluster:latest spark-hadoop-cluster 가 기본으로 구성된 이미지를 사용했다. 2. python3 & jupyter 설치 yum install -y python3-pip pip3 install jupyter python3-pip은 다른 hadoop cluster 컨테이너에도 설치해야.. 2020. 4. 28.
docker로 spark-hadoop-cluster 구축하기 목차 1. 작업 디렉토리 생성 2.Dockerfile 작성 3.도커이미지 빌드 4.Dockerhub에 도커이미지 업로드 (1) 도커허브에 Repository 만들기 (2) 도커이미지 이름 변경 (3) 도커이미지 업로드 5.spark-hadoop-cluster 구동 (1) 컨테이너 구동 (2) 클러스터 구동 (3) 클러스터 구동 테스트 6.github와 연동 (1) 작업디렉토리 github와 연동 (2) Dockerhub autobuild 적용 개선할 사항 참고링크 https://kadensungbincho.tistory.com/45 [Hands On] 도커 기반 하둡 살펴보기 (HDFS, YARN, MapReduce, Hive) 처음 하둡을 공부하려고 했을 때, 하둡이 무엇이고 정확히는 무엇인지 실체를 .. 2020. 4. 24.
spark history 서버 설정 및 구동 spark 기본 UI는 spark application이 종료되면 접속할 수 없다. 이전 application 로그를 확인하기 위해서 spark history 서버를 사용한다. ./$SPARK_HOME/conf/spark-defaults.conf 설정 spark.master spark://:7077 spark.eventLog.enabled true spark.eventLog.dir hdfs:///sparklog spark.history.fs.logDirectory hdfs:///sparklog spark.history.provider org.apache.spark.deploy.history.FsHistoryProvider spark application 로그를 hdfs에 저장하는 설정이다. hdfs에 /.. 2020. 4. 22.
반응형