728x90
1. 스파크 다운로드
- 스파크 3.0.1 설치
- $ wget http://mirror.apache-kr.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop3.2.tgz
- $ tar -xvzf spark-3.0.1-bin-hadoop3.2.tgz
2. 스파크 환경 변수 설정
- bashrc 작성
- ~/.bashrc에 vi하여 export 에 대한 SPARK_HOME, SPARK_CONF등 환경변수 설정을 한다.
- 작성 완료 후 source ~/.bashrc를 하여 적용한다.
- 설정 파일 복사
- 경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/
- $ cp workers.template workers
- $ cp spark-defaults.conf.template spark-defaults.conf
- $ cp spark-env.sh.template spark-env.sh
- 스파크 환경 변수 설정
- 경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/spark-env.sh
- export HADOOP_HOME="/home/bigdata/hadoop-3.3.0"
- export HADOOP_CONF_DIR="$HADOOP_HOME/etc/hadoop"
- export SPARK_WORKER_MEMORY=2g
- export YARN_CONF_DIR="$HADOOP_HOME/ect/hadoop"
- $ source ~/spark-3.0.1-bin-hadoop3.2/conf/spark-env.sh
- 스파크 설정 파일 변경
- 경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/spark-defaults.conf
- spark.master yarn
- 스파크 워커 설정
- 경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/slaves
- master
- worker1
- 스파크 설치 디렉토리 배포
- $ scp .bashrc worker1:~/
- $ scp -r ~/spark-3.0.1-bin-hadoop3.2 worker1:~/
3. 스파크 실행 및 동작 확인 - jps
- 스파크 실행
- $ $SPARK_HOME/sbin/start-all.sh
- 스파크 중지
- $ $SPARK_HOME/sbin/stop-all.sh
- jps 확인
- master 노드
- worker 노드
- 스파크 파이썬 셀 실행
4. 주피터 노트북 실행 환경 구축
- bigdata 가상환경 활성화
- $ conda activate bigdata
- (bigdata) $ conda env config vars set PYSPARK_DRIVER_PYTHON=jupyter
- (bigdata) $ conda env config vars set PYSPARK_DRIVER_PYTHON_OPTS=notebook
- (bigdata) $ conda env config vars set PYSPARK_PYTHON=python3
- 설정된 환경 변수 확인
- (bigdata) $ conda env config vars list
- Master 서버의 가상환경에서 pyspark 실행
- $ pyspark --master yarn
5. RDD 데이터프레임 생성
- 스파크세션 생성
- Pyspark 프로그램의 시작점, 데이터프레임을 생성하기 위한 클래스
- 스파크 컨텍스트 생성
- 스파크 프로그램의 시작점으로 스파크 클러스터와의 연결, RDD를 생성하기 위한 클래스
- RDD 생성
- 데이터프레임 생성 1
- 데이터프레임 생성 2
6. 스파크 실행 확인
- 마스터 웹 접속
- 192.168.0.10:8080
- Yarn Web에서 확인
- 192.168.0.10:8088
7. 가상 머신 시작 및 종료 주의 사항
- 시작 시
- 마스터, 워커 가상 머신 시작
- $ $HADOOP_HOME/sbin/start-all.sh
- $ $SPARK_HOME/sbin/start-all.sh
- 종료 시
- $ $SPARK_HOME/sbin/stop-all.sh
- $ $HADOOP_HOME/sbin/stop-all.sh
728x90
'빅데이터' 카테고리의 다른 글
빅데이터 - 6. SFPD 응용 (0) | 2022.10.09 |
---|---|
빅데이터 - 5. 스파크 데이터프레임 연산 (0) | 2022.09.18 |
빅데이터 - 3. 맵리듀스 응용 구축 (0) | 2022.08.30 |
빅데이터 - 2. 하둡 설치 (0) | 2022.08.24 |
빅데이터 - 1. 클러스터 서버 환경 구축 (2) | 2022.08.24 |