![](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbqjO22%2FbtrN9raMmv9%2F3MN9BJAxqakVCIvFyryo4K%2Fimg.jpg)
빅데이터
빅데이터 - 7. 단어 카운트
1. 입력 데이터 로컬 파일 복사 $ hadoop fs -mkdir /sparkdata/wordcnt $ hadoop fs -put ~/hadoop3.3.0/*.txt /sparkdata/wordcnt 2. 데이터 적재 dataDF = sapark.read.text("/sparkdata/wordcnt") dataDF.printSchema() print("총 레코드(라인)수 = ", dataDF.count()) dataDF.show(5, truncate=False) 3. 구두점 기호 제거 실행 from pyspark.sql.functions import regexp_replace, trim, col, lower #데이터 정제 함수 : 구두점 기호 제거, 소문자 변환, 앞뒤 공백문자 제거 def remove..