빅데이터

빅데이터 - 7. 단어 카운트

2022. 10. 9. 20:12
728x90

1. 입력 데이터 로컬 파일 복사

  • $ hadoop fs -mkdir /sparkdata/wordcnt
  • $ hadoop fs -put ~/hadoop3.3.0/*.txt /sparkdata/wordcnt

2. 데이터 적재

  • dataDF = sapark.read.text("/sparkdata/wordcnt")
  • dataDF.printSchema()
  • print("총 레코드(라인)수 = ", dataDF.count())
  • dataDF.show(5, truncate=False)
  •  

데이터 프레임 생성

3. 구두점 기호 제거 실행

  • from pyspark.sql.functions import regexp_replace, trim, col, lower
  • #데이터 정제 함수 : 구두점 기호 제거, 소문자 변환, 앞뒤 공백문자 제거
  • def removePunctuation(column):
  • return trim(lower(regexp_replace(column, '([^\s\w]|_)+',"))).alias('sentence')
  • #구두점 제거 문장 데이터프레임 생성
  • sentenceDF = dataDF.select(removePunctuation(col('value')))
  • sentenceDF.show(5, truncate=False)
  •  

구두점 기호 제거 실행

4. 단어 분리

  • #라인에서 단어 분리
    • sentenceDF1 = sentenceDF.select(split(sentenceDF.sentence, '\s+').alias("split"))
    • sentenceDF1.show(5, truncate=False)
    •  

라인에서 단어 분리

  • #각 단어를 행으로 분리
    • sentenceDF2 = sentenceDF1.select(explode(sentenceDF1.split).alias("word"))
    • sentenceDF2.show(5, truncate=False)
    •  

각 단어를 행으로 분리

  • #빈 행(Null)을 제거
    • wordDF = sentenceDF2.where(sentenceDF2.words != ")
    • wordDF.show(5, truncate=False)
    •  

빈행 null을 제거

5. 단어 카운트

  • #단어 카운트
    • wordDF1 = wordDF.groupby("word").count()
    • wordDF1.show(10, truncate=False)
    •  

단어 카운트

  • #단어 카운트, 정렬
    • wordDF1.orderBy("count", ascending=0).show(10, truncate=False)
    •  

단어 카운트,  정렬

 

728x90
저작자표시 비영리 변경금지 (새창열림)

'빅데이터' 카테고리의 다른 글

빅데이터 - 9. 인구수와 이동량에 대한 집값 상승률 비교  (0) 2023.01.17
빅데이터 - 8. 자동차 온실가스 분석  (0) 2023.01.17
빅데이터 - 6. SFPD 응용  (0) 2022.10.09
빅데이터 - 5. 스파크 데이터프레임 연산  (0) 2022.09.18
빅데이터 - 4. 스파크 설치 및 테스트  (0) 2022.08.30
'빅데이터' 카테고리의 다른 글
  • 빅데이터 - 9. 인구수와 이동량에 대한 집값 상승률 비교
  • 빅데이터 - 8. 자동차 온실가스 분석
  • 빅데이터 - 6. SFPD 응용
  • 빅데이터 - 5. 스파크 데이터프레임 연산
IT의 큰손
IT의 큰손
IT계의 큰손이 되고 싶은 개린이의 Log 일지
Developer Story HouseIT계의 큰손이 되고 싶은 개린이의 Log 일지
IT의 큰손
Developer Story House
IT의 큰손
전체
오늘
어제
  • 분류 전체보기 (457)
    • 정보처리기사 필기 (18)
    • 정보처리기사 실기 (12)
    • 정보처리기사 통합 QUIZ (12)
    • 빅데이터 (11)
    • 안드로이드 (11)
    • 웹페이지 (108)
    • 자바 (49)
    • SQLD (3)
    • 백준 알고리즘 (76)
    • 데이터베이스 (41)
    • 깃허브 (2)
    • Library (14)
    • Server (31)
    • 크롤링&스크래핑 (3)
    • Spring (23)
    • Vue.js (13)
    • React (27)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

  • Developer Stroy House

인기 글

태그

  • IT자격증공부
  • 코딩테스트
  • 정보처리기사필기
  • 앱개발자
  • 자바
  • css
  • React
  • 데이터베이스
  • 알고리즘
  • IT자격증
  • 개발자
  • ajax
  • jsp
  • 웹개발자
  • 백준
  • 정보처리기사
  • IT개발자
  • DBA
  • 웹페이지
  • java
  • DB
  • JavaScript
  • 프론트엔드
  • 정보보안전문가
  • 웹개발
  • html
  • it
  • jquery
  • 개발블로그
  • 백엔드

최근 댓글

최근 글

Designed By hELLO
IT의 큰손
빅데이터 - 7. 단어 카운트
상단으로

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.