빅데이터

빅데이터 - 1. 클러스터 서버 환경 구축

IT의 큰손 2022. 8. 24. 16:17
728x90

주요 용어

  • 클러스터 서버
    • VirtualBox 가상머신을 사용.
    • 2 개의 리눅스 서버
    • 1 개의 NAT 게이트웨이
  • 하둡, 스파크를 이용
  • 클라이언트
    • ssh 접속 프로그램 : OpenSSH Client
    • Visual Studio Code
    • iPutty
  • CIDR
    • IP 주소의 서브넷 부분이 임의의 길이를 가지는 것.
  • DHCP
    • 호스트가 네트워크에 접속할 때 서버로부터 IP 주소를 동적으로 획득
    • 네트워크에 연결되었을 때만 주소를 가지므로 주소의 재사용 가능
  • NAT
    • 네트워크 주소 변환

 

1. VirtualBox 가상 머신 - 다운로드

  • https://www.virtualbox.org/wiki/Downloads 에 들어가서 다운로드.
  • 여기서 패키지에서 Windows hosts 용으로 다운로드 해야한다.
  • 이어서, 다운로드 받은 파일 실행하여 설치를 완료하고, 디폴트로 Next 버튼 눌러 설치한다.

2. 포트 포워딩 네트워크 설정

  • NAT 라우터의 호스트 주소를 설정한다.
    • PC가 연결된 네트워크 환경에서 사용 가능한 IP 주소
    • PC가 연결된 라우터의 서브넷 주소
    • 가상머신의 외부 인터넷 연결 주소
  • NAT 라우터의 게스트 주소를 설정한다.
    • 가상머신 게스트들의 라우터 주소
    • 가상머신 게스트들의 내부 서브넷 주소
  • 호스트 전용 어댑터 설정
  •  

호스트 전용 어댑터 설정 1

  •  

호스트 전용 어댑터 설정 2

  • NAT Network 설정
  •  

NAT Network 설정 1
NAT Network 설정 2

 

3. 가상 머신 설치

  • Master, Worker에 해당하는 2개의 가상 머신을 설치한다.
  • 가상 머신 사양 ( 실습 사양에 따라 다름)
    • 프로세서 : 4개
    • 메인 메모리 : 4096 MB
    • 하드 디스크 : 20 GB
    • 우분투 : 18.04 LTS

가상 머신

  • 어댑터를 NAT 네트워크로 설정을 변경
    •  

네트워크 설정 변경

 

4. VirtualBox 가상 머신 - Ubuntu 서버 실행

  • 계정 정보
    • 부팅시, 사용자 계정과 비번을 설정해준다.

 

5. Master 서버 - IP 주소 설정 1

  • 설정파일에서 주소를 수정해준다.
    • 경로 : /etc/netplan/00-installer-config.yaml
    • 명령어 : $ sudo vim /etc/netplan/00-installer-config.yaml
    •  

netplan 수정 및 삽입

  • 수정된 설정 파일 적용
    • $ sudo netplan apply
  • 수정된 IP 주소 확인
    • $ ip addr

 

6.  Worker 서버 - IP 주소 설정 1

  • 상위의 Master 서버와 같이 동일한 작업을 하여주면 된다.

 

7. ping 명령어를 통하여, 인터넷 연결 및 DNS 서버 동작을 확인한다.

ping 명령어 사용

 

8. 윈도우 클라이언트 환경

  • VS Code 설치
  • https://code.visualstudio.com/docs/?dv=win
  •  

설치 시 아래 옵션 체크

  • VS code 시작 후,
    • Korean Language Pack for Visual Studio Code 설치
    • Remote - SSH 설치
    • Python 설치
    •  
  • SSH 설정
    • 원격 탐색기를 눌러, config 파일 설정 편집
    •  

SSH 설정
config 파일 편집 후 저장

  •  VS code SSH 접속
    • 추가한 ssh bigdata 설정으로 가상 머신 접속하고 로그인.
    •  

가상 머신 접속 후 로그인

  • 접속후
    • 로그인 후, SSH 터미널을 이용하여 셀 명령 작업을 실행.
    • 비번 없이 SSH 접속을 위해 비밀키와 공개키를 생성하였다.
      • ssh-keygen
      • 키를 복사하여, Master 서버의 ~/.ssh/authorized_keys 파일에 추가한다.

명령어를 통해 발급된 키

 

9. 아나콘다 다운로드

  • 명령어를 통하여 다운로드 한다.
    • $ wget https://repo.anaconda.com/archive/Anaconda3-5.3.1-Linux-x86_64.sh 
  • 실행권한 추가
    • $ chmod +x Anaconda3-5.3.1-Linux-x86_64.sh
  • 설치 파일 실행
    • $ ./Anaconda3-5.3.1-Linux-86_64.sh -b -p $HOME/anaconda
  • bashrc 파일에 아나콘다 활성화 추가
    • . "/home/bigdata/anaconda/etc/profile.d/conda.sh"
  • 아나콘다 업데이트
    • conda update conda
  • 아나콘다 버전 확인
    • conda --version
  • bash 셀 환경에 대한 conda 초기화
    • conda init bash
  • 셀 종료 후 다시 시작

 

10. 빅데이터 가상환경 구축

  • bigdata 가상환경 생성
    • conda create -n bigdata python=3.6
  • bigdata 가상환경 활성화
    • conda activate bigdata
  • bigdata 가상환경 비활성화
    • conda deactivate
    •  

가상환경 활성화 & 비활성화

 

11. 주피터 노트북 설정

  • 주피터 노트북 디렉터리 설정
    • mkdir $HOME/.jupyter
    • mkdir -p $HOEM/jupyter/notebooks
    • HOME/.jupyter/jupyter_notebook_config.py 파일 생성 후 추가
      • c. NotebookApp.notebook_dir="$HOME/jupyter/notebooks"
      • c.NotebookApp.ip="0.0.0.0"

 

12. 주피터 노트북 실행

  • 가상 환경 접속 후 numpy와 matplotlib 설치
    • conda activate bigdata
    • conda install numpy matplotlib
  • 주피터 서버 실행
    • jupyter notebook
    •  

주피터 실행화면

  • 주피터 서버 접속 후, 토큰 복사하여 입력
  •  

표시된 토큰을 복사하여 패스워드를 입력하여 접속한다.

 

13. 주피터 동작 확인

  • 파이썬을 이용하여, 데이터를 통한 그래프 그리는 코드를 작성하여 실행해보았다.
  •  

실행화면

 

728x90