데이터프레임연산

빅데이터

빅데이터 - 7. 단어 카운트

1. 입력 데이터 로컬 파일 복사 $ hadoop fs -mkdir /sparkdata/wordcnt $ hadoop fs -put ~/hadoop3.3.0/*.txt /sparkdata/wordcnt 2. 데이터 적재 dataDF = sapark.read.text("/sparkdata/wordcnt") dataDF.printSchema() print("총 레코드(라인)수 = ", dataDF.count()) dataDF.show(5, truncate=False) 3. 구두점 기호 제거 실행 from pyspark.sql.functions import regexp_replace, trim, col, lower #데이터 정제 함수 : 구두점 기호 제거, 소문자 변환, 앞뒤 공백문자 제거 def remove..

빅데이터

빅데이터 - 6. SFPD 응용

1. SFPD 데이터 다운로드 $ mkdir ~/sparkdata/sfpd $ cd ~/sparkdata/sfpd $ wget https://github.com/caroljmcdonald/sparkdataframeexample/blob/master/sfpd.csv 2. 하둡 적재 hadoop fs -mkdir /sparkdata/sfpd hadoop fs -put sfpd.csv /sparkdata/sfpd hadoop fs -ls /sparkdata/sfpd 3. SFPD 데이터 프레임 생성 4. 데이터 조사 질의 가장 사건이 많이 발생한 5개의 주소? 5. 가장 사건이 많이 발생한 5개의 주소, SQL 6. 가장 사건이 많이 발생한 5개의 지구대는? 7. 가장 많은 10개의 사건 해결 유형은? 8. ..

빅데이터

빅데이터 - 5. 스파크 데이터프레임 연산

1. 데이터 프레임 생성 df = spark.createDataFrame([1,'홍민식', '컴퓨터공학과', 260), (2, '이세진', '경영학과', 240), (3, '김준헌', '철학과', 220), (4, '박서중', '경영학과', 230), (5, '김유민', '경영학과' 245), (6, '전인국', '컴퓨터공학과', 260)],['ID', '이름', '학과', '총점']) df.show() 2. 레코드 삽입 df1 = spark.createDataFrame([(7, '하상오', '컴퓨터공학과', 270), (8, '박선아', '컴퓨터공학과', 250)]) 새 데이터 프레임을 생성한 후, df2 = df.union(df1) 두 프레임을 결합한 새로운 데이터 프레임 생성 df2.show() 3..

IT의 큰손
'데이터프레임연산' 태그의 글 목록