hadoop

빅데이터

빅데이터 - 5. 스파크 데이터프레임 연산

2022.09.18

1. 데이터 프레임 생성 df = spark.createDataFrame([1,'홍민식', '컴퓨터공학과', 260), (2, '이세진', '경영학과', 240), (3, '김준헌', '철학과', 220), (4, '박서중', '경영학과', 230), (5, '김유민', '경영학과' 245), (6, '전인국', '컴퓨터공학과', 260)],['ID', '이름', '학과', '총점']) df.show() 2. 레코드 삽입 df1 = spark.createDataFrame([(7, '하상오', '컴퓨터공학과', 270), (8, '박선아', '컴퓨터공학과', 250)]) 새 데이터 프레임을 생성한 후, df2 = df.union(df1) 두 프레임을 결합한 새로운 데이터 프레임 생성 df2.show() 3..

빅데이터

빅데이터 - 4. 스파크 설치 및 테스트

2022.08.30

1. 스파크 다운로드 스파크 3.0.1 설치 $ wget http://mirror.apache-kr.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop3.2.tgz $ tar -xvzf spark-3.0.1-bin-hadoop3.2.tgz 2. 스파크 환경 변수 설정 bashrc 작성 ~/.bashrc에 vi하여 export 에 대한 SPARK_HOME, SPARK_CONF등 환경변수 설정을 한다. 작성 완료 후 source ~/.bashrc를 하여 적용한다. 설정 파일 복사 경로 : ~/spark-3.0.1-bin-hadoop3.2/conf/ $ cp workers.template workers $ cp spark-defaults.conf.template spark-defa..

빅데이터 - 5. 스파크 데이터프레임 연산

빅데이터 - 4. 스파크 설치 및 테스트

티스토리툴바