빅데이터

빅데이터 - 5. 스파크 데이터프레임 연산

2022. 9. 18. 10:25
728x90

1. 데이터 프레임 생성

  • df = spark.createDataFrame([1,'홍민식', '컴퓨터공학과', 260), (2, '이세진', '경영학과', 240), (3, '김준헌', '철학과', 220), (4, '박서중', '경영학과', 230), (5, '김유민', '경영학과' 245), (6, '전인국', '컴퓨터공학과', 260)],['ID', '이름', '학과', '총점'])
  • df.show()

데이터 프레임 생성

 

2. 레코드 삽입

  • df1 = spark.createDataFrame([(7, '하상오', '컴퓨터공학과', 270), (8, '박선아', '컴퓨터공학과', 250)])
    • 새 데이터 프레임을 생성한 후,
  • df2 = df.union(df1)
    • 두 프레임을 결합한 새로운 데이터 프레임 생성
  • df2.show()
  •  

레코드 삽입

 

3. 평균 열 삽입 1

  • df3 = df2.withColumn("평균", df2.총점/3)
  • df3.printSchema()
  • df3.show()
  •  

평균 열 삽입 1

 

4. 평균 열 삽입2, 소수점 이하 2자리 반올림

  • from pyspark.sql.functions import round
  • df4 = df3.withColumn("평균", round(df3.평균,2))
  • df4.show()
  •  

평균 열 삽입 2

 

5. 총점 열 제거

  • df5 = df4.drop('총점').show()
  •  

총점 열 제거

 

6. 질의 연산

  • #select() 연산
    • df4.select('학과').show()
    • df4.select('학과').distinct().show()
    • df4.select('학과', '이름').show()
    •  

질의 연산

  • filter, where 연산
    • from pyspark.sql.functions import col
    • df4.filter(col('학과') == '컴퓨터공학과').show()
    • df4.filter((df4.학과 == '컴퓨터공학과) & (df4.평균 >= 90)).show()
    •  

filter 연산

  • 정렬 조회
    • df4.sort("평균").show()
    • df4.sort(col("평균").desc()).show()
    •  

정렬 조회

 

  • 학과는 올림차순, 평균은 내림차순 정렬
    • df4.orderBy(["학과", "평균"], ascending=[1,0]).show()
    •  

오름차순, 내림차순 정렬

 

728x90
저작자표시 비영리 변경금지 (새창열림)

'빅데이터' 카테고리의 다른 글

빅데이터 - 7. 단어 카운트  (0) 2022.10.09
빅데이터 - 6. SFPD 응용  (0) 2022.10.09
빅데이터 - 4. 스파크 설치 및 테스트  (0) 2022.08.30
빅데이터 - 3. 맵리듀스 응용 구축  (0) 2022.08.30
빅데이터 - 2. 하둡 설치  (0) 2022.08.24
'빅데이터' 카테고리의 다른 글
  • 빅데이터 - 7. 단어 카운트
  • 빅데이터 - 6. SFPD 응용
  • 빅데이터 - 4. 스파크 설치 및 테스트
  • 빅데이터 - 3. 맵리듀스 응용 구축
IT의 큰손
IT의 큰손
IT계의 큰손이 되고 싶은 개린이의 Log 일지
IT의 큰손
Developer Story House
IT의 큰손
전체
오늘
어제
  • 분류 전체보기 (457)
    • 정보처리기사 필기 (18)
    • 정보처리기사 실기 (12)
    • 정보처리기사 통합 QUIZ (12)
    • 빅데이터 (11)
    • 안드로이드 (11)
    • 웹페이지 (108)
    • 자바 (49)
    • SQLD (3)
    • 백준 알고리즘 (76)
    • 데이터베이스 (41)
    • 깃허브 (2)
    • Library (14)
    • Server (31)
    • 크롤링&스크래핑 (3)
    • Spring (23)
    • Vue.js (13)
    • React (27)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

  • Developer Stroy House

인기 글

태그

  • 앱개발자
  • JavaScript
  • 데이터베이스
  • css
  • DB
  • IT자격증
  • 웹페이지
  • 자바
  • ajax
  • 웹개발
  • DBA
  • 개발블로그
  • React
  • 정보보안전문가
  • 정보처리기사
  • IT자격증공부
  • 웹개발자
  • 프론트엔드
  • 개발자
  • 정보처리기사필기
  • IT개발자
  • 백준
  • it
  • 코딩테스트
  • jquery
  • java
  • html
  • 백엔드
  • jsp
  • 알고리즘

최근 댓글

최근 글

Designed By hELLO
IT의 큰손
빅데이터 - 5. 스파크 데이터프레임 연산
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.