빅데이터

빅데이터 - 4. 스파크 설치 및 테스트

2022. 8. 30. 16:37
728x90

1. 스파크 다운로드

  • 스파크 3.0.1 설치
    • $ wget http://mirror.apache-kr.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop3.2.tgz
    • $ tar -xvzf spark-3.0.1-bin-hadoop3.2.tgz

 

2. 스파크 환경 변수 설정

  • bashrc 작성
    • ~/.bashrc에 vi하여 export 에 대한 SPARK_HOME, SPARK_CONF등 환경변수 설정을 한다.
    • 작성 완료 후 source ~/.bashrc를 하여 적용한다.
  •  

bashrc 환경변수 추가

  • 설정 파일 복사
  • 경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/ 
    • $ cp workers.template workers
    • $ cp spark-defaults.conf.template spark-defaults.conf
    • $ cp spark-env.sh.template spark-env.sh
  • 스파크 환경 변수 설정
  • 경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/spark-env.sh
    • export HADOOP_HOME="/home/bigdata/hadoop-3.3.0"
    • export HADOOP_CONF_DIR="$HADOOP_HOME/etc/hadoop"
    • export SPARK_WORKER_MEMORY=2g
    • export YARN_CONF_DIR="$HADOOP_HOME/ect/hadoop"
    • $ source ~/spark-3.0.1-bin-hadoop3.2/conf/spark-env.sh
  • 스파크 설정 파일 변경
  • 경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/spark-defaults.conf
    • spark.master       yarn
  • 스파크 워커 설정
  • 경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/slaves
    • master
    • worker1
  • 스파크 설치 디렉토리 배포
    • $ scp .bashrc worker1:~/
    • $ scp -r ~/spark-3.0.1-bin-hadoop3.2 worker1:~/

 

3. 스파크 실행 및 동작 확인 - jps

  • 스파크 실행
    • $ $SPARK_HOME/sbin/start-all.sh
    •  

스파크 실행

  • 스파크 중지
    • $ $SPARK_HOME/sbin/stop-all.sh
  • jps 확인
  • master 노드
  •  

Master 노드

  • worker 노드
  •  

worker 노드

  • 스파크 파이썬 셀 실행
  •  

pyspark 실행

 

4. 주피터 노트북 실행 환경 구축

  • bigdata 가상환경 활성화
    • $ conda activate bigdata
    • (bigdata) $ conda env config vars set PYSPARK_DRIVER_PYTHON=jupyter
    • (bigdata) $ conda env config vars set PYSPARK_DRIVER_PYTHON_OPTS=notebook
    • (bigdata) $ conda env config vars set PYSPARK_PYTHON=python3
    • 설정된 환경 변수 확인
      • (bigdata) $ conda env config vars list
    • Master 서버의 가상환경에서 pyspark 실행
      • $ pyspark --master yarn
      •  

파이스파크 실행

 

5. RDD 데이터프레임 생성

  • 스파크세션 생성
    • Pyspark 프로그램의 시작점, 데이터프레임을 생성하기 위한 클래스
  • 스파크 컨텍스트 생성
    • 스파크 프로그램의 시작점으로 스파크 클러스터와의 연결, RDD를 생성하기 위한 클래스
  • RDD 생성
  • 데이터프레임 생성 1
  • 데이터프레임 생성 2
  •  

RDD 데이터프레임 생성 및 실행

 

6. 스파크 실행 확인

  • 마스터 웹 접속
  • 192.168.0.10:8080
  •  

마스터 포트 웹 접속 확인

  • Yarn Web에서 확인
  • 192.168.0.10:8088
  •  

Yarn web에서 확인

 

7. 가상 머신 시작 및 종료 주의 사항

  • 시작 시
    • 마스터, 워커 가상 머신 시작
    • $ $HADOOP_HOME/sbin/start-all.sh
    • $ $SPARK_HOME/sbin/start-all.sh
  • 종료 시
    • $ $SPARK_HOME/sbin/stop-all.sh
    • $ $HADOOP_HOME/sbin/stop-all.sh
728x90
저작자표시 비영리 변경금지 (새창열림)

'빅데이터' 카테고리의 다른 글

빅데이터 - 6. SFPD 응용  (0) 2022.10.09
빅데이터 - 5. 스파크 데이터프레임 연산  (0) 2022.09.18
빅데이터 - 3. 맵리듀스 응용 구축  (0) 2022.08.30
빅데이터 - 2. 하둡 설치  (0) 2022.08.24
빅데이터 - 1. 클러스터 서버 환경 구축  (2) 2022.08.24
'빅데이터' 카테고리의 다른 글
  • 빅데이터 - 6. SFPD 응용
  • 빅데이터 - 5. 스파크 데이터프레임 연산
  • 빅데이터 - 3. 맵리듀스 응용 구축
  • 빅데이터 - 2. 하둡 설치
IT의 큰손
IT의 큰손
IT계의 큰손이 되고 싶은 개린이의 Log 일지
Developer Story HouseIT계의 큰손이 되고 싶은 개린이의 Log 일지
IT의 큰손
Developer Story House
IT의 큰손
전체
오늘
어제
  • 분류 전체보기 (457)
    • 정보처리기사 필기 (18)
    • 정보처리기사 실기 (12)
    • 정보처리기사 통합 QUIZ (12)
    • 빅데이터 (11)
    • 안드로이드 (11)
    • 웹페이지 (108)
    • 자바 (49)
    • SQLD (3)
    • 백준 알고리즘 (76)
    • 데이터베이스 (41)
    • 깃허브 (2)
    • Library (14)
    • Server (31)
    • 크롤링&스크래핑 (3)
    • Spring (23)
    • Vue.js (13)
    • React (27)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

  • Developer Stroy House

인기 글

태그

  • java
  • 웹개발자
  • IT자격증
  • 프론트엔드
  • 백엔드
  • ajax
  • css
  • 자바
  • 백준
  • jquery
  • IT자격증공부
  • DBA
  • 데이터베이스
  • 앱개발자
  • 개발자
  • 웹개발
  • 웹페이지
  • it
  • DB
  • 정보처리기사
  • 코딩테스트
  • IT개발자
  • 정보보안전문가
  • html
  • 정보처리기사필기
  • jsp
  • React
  • 알고리즘
  • 개발블로그
  • JavaScript

최근 댓글

최근 글

Designed By hELLO
IT의 큰손
빅데이터 - 4. 스파크 설치 및 테스트
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.