빅데이터 기초

빅데이터

빅데이터 - 3. 맵리듀스 응용 구축

1. 데이터 다운로드 wget을 이용하여 사이트에 있는 receipts.txt 파일을 다운로드 한다. 정상적으로 다운로드를 완료한다. 2. RECEIPTS ReceiptsMapper 패키지 Receipts를 받아, import를 한다. Mapper 클래스 인수 : 입력키,입력값,출력키,출력값 타입을 구분 Map() 메서드 인수 : 입력키, 입력값,실행되는 작업의 컨텍스트 필드 구분을 위하여 StringTokenizer을 사용. 키(“Summary”)와 합성값(year_delta) 출력 ReceiptReducer Reducer 클래스 인수 : 입력키,입력값,출력키,출력값 Reduce() 메서드 인수 : 입력키,입력값,실행되는 작업의 컨텍스트 합성 값들에서 년도와 delta를 분리하고 delta 값을 Lon..

빅데이터

빅데이터 - 2. 하둡 설치

1. OpenJdk-8 자바 설치 https://openjdk.java.net/ sudo apt install -y openjdk-8-jdk 자바 환경변수 설정 ~/.bashrc에 추가 export JAVA_HOME="usr/lib/jvm/java-8-openjdk-amd64" export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=$JAVA_HOME/lib:$CLASSPATH $ java -version을 통해 자바 설치 버전 확인 2. 노드 호스트 이름 설정 /etc/hosts 192.168.100.200 master MASTER 192.168.101.201 worker1 WORKER1 3. 하둡 설치 - 패키지 다운로드 wget https://archive.apac..

빅데이터

빅데이터 - 1. 클러스터 서버 환경 구축

주요 용어 클러스터 서버 VirtualBox 가상머신을 사용. 2 개의 리눅스 서버 1 개의 NAT 게이트웨이 하둡, 스파크를 이용 클라이언트 ssh 접속 프로그램 : OpenSSH Client Visual Studio Code iPutty CIDR IP 주소의 서브넷 부분이 임의의 길이를 가지는 것. DHCP 호스트가 네트워크에 접속할 때 서버로부터 IP 주소를 동적으로 획득 네트워크에 연결되었을 때만 주소를 가지므로 주소의 재사용 가능 NAT 네트워크 주소 변환 1. VirtualBox 가상 머신 - 다운로드 https://www.virtualbox.org/wiki/Downloads 에 들어가서 다운로드. 여기서 패키지에서 Windows hosts 용으로 다운로드 해야한다. 이어서, 다운로드 받은 파..

IT의 큰손
'빅데이터 기초' 태그의 글 목록