가상환경

빅데이터

빅데이터 - 7. 단어 카운트

2022.10.09

1. 입력 데이터 로컬 파일 복사 $ hadoop fs -mkdir /sparkdata/wordcnt $ hadoop fs -put ~/hadoop3.3.0/*.txt /sparkdata/wordcnt 2. 데이터 적재 dataDF = sapark.read.text("/sparkdata/wordcnt") dataDF.printSchema() print("총 레코드(라인)수 = ", dataDF.count()) dataDF.show(5, truncate=False) 3. 구두점 기호 제거 실행 from pyspark.sql.functions import regexp_replace, trim, col, lower #데이터 정제 함수 : 구두점 기호 제거, 소문자 변환, 앞뒤 공백문자 제거 def remove..

빅데이터 - 7. 단어 카운트

티스토리툴바