본문 바로가기
반응형

전체 카테고리147

[spark] 리눅스 환경에서 maven + spark + scala IDE를 사용하지 않고, 리눅스 터미널 환경에서 메이븐 빌드를 하는 과정입니다. scala로 짜여진 스파크 프로그램을 실행하는 것까지 해보겠습니다. 1. 메이븐, 스칼라 설치 및 설정 테스트 환경 JAVA : openJDK 1.8 SPARK 2.4.3 CentOS 6.9 메이븐을 설치합니다. #다운로드 받을 디렉토리로 이동합니다. cd /usr/share #바이너리 파일을 다운받습니다. wget http://apache.mirror.cdnetworks.com/maven/maven-3/3.6.1/binaries/apache-maven-3.6.1-bin.tar.gz #압축을 풀어 설치합니다. tar xvzf apache-maven-3.6.1-bin.tar.gz 메이븐 공식 홈페이지 : https://mave.. 2019. 6. 28.
[spark] 아파치 스파크 클러스터 종류 1. 스파크 로컬 모드 간단한 테스트를 할 때 유용합니다. 로컬 머신에서만 스파크가 구동됩니다. 클라이언트 JVM에 driver 1개와 executor 1개씩만 생성하는 형태입니다. 그래도 executor는 스레드를 여러 개 생성하여 태스크를 병렬로 실행할 수 있습니다. spark-shell이나 spark-submit 으로 로컬모드를 수행할 때는 --master 매개변수 값을 아래와 같이 설정합니다. 매개변수 값 설명 local[n] 스레드 n개를 사용하여 1개의 executor를 실행 local 스레드 1개를 사용하여 1개의 executor를 실행 (local[1]) local[*] 로컬머신의 CPU 코어개수와 동일하게 스레드를 생성하여 1개의 executor를 실행 local[,] 스레드 n개를 사용.. 2019. 6. 27.
[spark] 아파치 스파크 설치 및 환경설정 1. 테스트환경 VM 3대로 구성하였습니다. 각각의 메모리는 8GB 입니다. CentOS 6.9 를 사용하였습니다. Hadoop 2.7.4 클러스터를 구축해놓은 상태입니다. 2. Spark 2.4.3 설치 아래 사이트에 접속하여 Spark 바이너리 파일을 다운로드 받습니다. cd /home/sunny wget https://www.apache.org/dyn/closer.lua/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz 압축을 해제합니다. tar -xvzf spark-2.4.3-bin-hadoop2.7.tgz mv spark-2.4.3-bin-hadoop2.7 spark 환경변수를 설정합니다. vim /home/sunny/.bashrc export YARN_CON.. 2019. 6. 24.
반응형