빅데이터 - 4. 스파크 설치 및 테스트

728x90

1. 스파크 다운로드

스파크 3.0.1 설치
- $ wget http://mirror.apache-kr.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop3.2.tgz
- $ tar -xvzf spark-3.0.1-bin-hadoop3.2.tgz

2. 스파크 환경 변수 설정

bashrc 작성
- ~/.bashrc에 vi하여 export 에 대한 SPARK_HOME, SPARK_CONF등 환경변수 설정을 한다.
- 작성 완료 후 source ~/.bashrc를 하여 적용한다.

설정 파일 복사
경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/
- $ cp workers.template workers
- $ cp spark-defaults.conf.template spark-defaults.conf
- $ cp spark-env.sh.template spark-env.sh
스파크 환경 변수 설정
경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/spark-env.sh
- export HADOOP_HOME="/home/bigdata/hadoop-3.3.0"
- export HADOOP_CONF_DIR="$HADOOP_HOME/etc/hadoop"
- export SPARK_WORKER_MEMORY=2g
- export YARN_CONF_DIR="$HADOOP_HOME/ect/hadoop"
- $ source ~/spark-3.0.1-bin-hadoop3.2/conf/spark-env.sh
스파크 설정 파일 변경
경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/spark-defaults.conf
- spark.master yarn
스파크 워커 설정
경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/slaves
- master
- worker1
스파크 설치 디렉토리 배포
- $ scp .bashrc worker1:~/
- $ scp -r ~/spark-3.0.1-bin-hadoop3.2 worker1:~/

3. 스파크 실행 및 동작 확인 - jps

4. 주피터 노트북 실행 환경 구축

5. RDD 데이터프레임 생성

6. 스파크 실행 확인

7. 가상 머신 시작 및 종료 주의 사항

시작 시
- 마스터, 워커 가상 머신 시작
- $ $HADOOP_HOME/sbin/start-all.sh
- $ $SPARK_HOME/sbin/start-all.sh
종료 시
- $ $SPARK_HOME/sbin/stop-all.sh
- $ $HADOOP_HOME/sbin/stop-all.sh

728x90

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

티스토리툴바