본문 바로가기

BigData 기술37

IntelliJ에서 Presto Query 날리기 0. 윈도우 hosts파일 작성 C:\Windows\System32\drivers\etc\hosts 192.168.5.183 dss03.nexr.com 인증서 서명이 dss03.nexr.com 로 되어있기 때문에 클라이언트도 dss03.nexr.com로 요청해야 인증에 성공한다. 1. presto-jdbc 드라이버 다운로드 https://prestodb.io/download.html 2. intelliJ에 presto-jdbc 드라이버 추가 3. 인증서 파일 다운로드 (ndap-truststore.jks) presto server에 있는 인증서를 PC에 다운로드 받았다. 나중에 API로 호출하면 따로 다운로드 받지 않아도 브라우저 통해서 인증서를 받겠지? 4. 코드 작성 (https) package co.. 2020. 5. 14.

jupyter 노트북에서 pyspark 사용하기 윗 글에서 docker로 spark-hadoop-cluster를 구성했다. 여기에 jupyter 노트북을 붙여서 pyspark를 사용해본다. jupyter 노트북 역시 도커 컨테이너를 사용할 것이당. 1. jupyter용 도커 컨테이너 생성 docker run -it --name jupyter -h jupyter --net mycluster sunnydockerhub/sunny-spark-hadoop-cluster:latest spark-hadoop-cluster 가 기본으로 구성된 이미지를 사용했다. 2. python3 & jupyter 설치 yum install -y python3-pip pip3 install jupyter python3-pip은 다른 hadoop cluster 컨테이너에도 설치해야.. 2020. 4. 28.

docker로 spark-hadoop-cluster 구축하기 목차 1. 작업 디렉토리 생성 2.Dockerfile 작성 3.도커이미지 빌드 4.Dockerhub에 도커이미지 업로드 (1) 도커허브에 Repository 만들기 (2) 도커이미지 이름 변경 (3) 도커이미지 업로드 5.spark-hadoop-cluster 구동 (1) 컨테이너 구동 (2) 클러스터 구동 (3) 클러스터 구동 테스트 6.github와 연동 (1) 작업디렉토리 github와 연동 (2) Dockerhub autobuild 적용 개선할 사항 참고링크 https://kadensungbincho.tistory.com/45 [Hands On] 도커 기반 하둡 살펴보기 (HDFS, YARN, MapReduce, Hive) 처음 하둡을 공부하려고 했을 때, 하둡이 무엇이고 정확히는 무엇인지 실체를 .. 2020. 4. 24.

spark history 서버 설정 및 구동 spark 기본 UI는 spark application이 종료되면 접속할 수 없다. 이전 application 로그를 확인하기 위해서 spark history 서버를 사용한다. ./$SPARK_HOME/conf/spark-defaults.conf 설정 spark.master spark://:7077 spark.eventLog.enabled true spark.eventLog.dir hdfs:///sparklog spark.history.fs.logDirectory hdfs:///sparklog spark.history.provider org.apache.spark.deploy.history.FsHistoryProvider spark application 로그를 hdfs에 저장하는 설정이다. hdfs에 /.. 2020. 4. 22.

hive udf 등록하는 방법 1. 영구적으로 적용하는 방법 udf jar 파일을 클러스터 서버에 배포한다. ansible -i hosts all -m copy -a "src=/tmp/sunnyudf.jar dest=/usr/lib/hive/auxlib/" hive-site.xml 에 배포한 jar 경로를 설정한다. hive.aux.jars.path file:///usr/lib/hive/auxlib/sunnyudf.jar function 등록 vim /etc/hive/conf/.hiverc ++ CREATE TEMPORARY FUNCTION sunnyudf as 'com.test.sunny.SunnyUdf'; hive 재시작 service hive-server2 restart 2. 임시로 적용하는 방법 HDFS에 udf jar 파일 .. 2019. 11. 28.

[YARN] 필수개념 YARN 이란 클러스터 리소스를 관리하기 위한 컴포넌트 YARN 구성요소 Resource Manager (RM) 클라이언트의 작업 요청을 받음 Application Master 를 구동함 Application Master의 추가 리소스 요청을 받음 클러스터당 1개가 구동됨 운영환경에서 보통 HA 구성을 함 Node Manager (NM) 컨테이너를 구동함 컨테이너 사용을 모니터링하고, RM에게 알림 노드당 1개씩 구동됨 보통 데이터노드와 노드매니저가 같은 서버에서 구동됨 Application Master (AM) NM과 통신하면서 application을 실행함 추가 리소스가 필요하면 RM에게 요청함 어플리케이션당 1개씩 구동됨 (hive, spark 등) YARN 리소스 할당 과정 (1) client가 .. 2019. 10. 30.

이전 1 2 3 4 5 6 7 다음

티스토리툴바