'하둡' 태그의 글 목록

빅데이터

빅데이터-11. 지하철 호선에 대한 승,하차 인원 예측

2023.01.17

1. 데이터 생성 subway.csv 파일을 생성 후 불러옴 훈련 데이터와 테스트 데이터를 8:2의 비율로 나눈 후, 승차인원과 하차인원을 출력 2. 데이터 가공 피처 전처리를 실행 한 후, 데이터의 숫자열들과 인코드 열들의 피처들을 단일 피처로 결합 파이프 라인을 구축하여, 훈련 데이터로 학습 모델을 구축 학습 모델에 적용 후 데이터 프레임을 변환 3. 예측 정확도 예측 정확도를 살펴보니 0.9대의 정확도를 측정 아래와 같이 승하차 인원에 대한 예측도를 볼 수 있다. 4. 정확도 시각화 데이터를 시각화하여 살펴본 결과 5호선이 가장 높았고, 7호선, 2호선 순인 것을 알 수 있었다.

빅데이터

빅데이터 - 10. 인구수와 이동량에 대한 집값 예측

2023.01.17

1.1 집값 예측-1 우선 총 데이터 사용을 위하여 dataframe 합치기 연산을 통하여 이와 같이 데이터들을 통합하였다. 1.2 집값 예측-2 총 데이터를 8:2 비율로 훈련 데이터와 테스트 데이터를 나누었다. mean, stddev, min 등을 출력하여 비교하였다. 1.3 집값 예측-3 마찬가지로, 3월 4월에 해당하는 각각의 데이터들도 출력하였다. 1.4 집값 예측-4 카테고리의 열들을 각각 기입하고, index의 새로운 열을 반환하고 전처리를 수행 fit과 transform을 이용하여 변환하였다. 1.5 집값 예측-5 데이터 숫자 열들과, 원핫 인코드 열들의 피처들을 단일 피처로 결합 파이프 라인을 구축하여, 훈련 데이터로 학습 모델을 구축 그 후, 테스트 데이터에 학습 모델을 적용 후, 데이..

빅데이터

빅데이터 - 9. 인구수와 이동량에 대한 집값 상승률 비교

2023.01.17

1. 데이터 소개 homeprice.csv : 3개월간의 전국 집값, 집값의 상승률 movehouse.csv : 3개월간의 전국 이동량 koreahuman.csv : 3개월간의 인구수 ※ 실제 통계된 내용은 정확한 자료가 아닐 수 있으며, 정확한 통계가 아닐 수 있습니다. 2. 데이터 생성-1 csv 파일을 작성 및 클라우드에 올린 후, 해당 클라우드 사이트에 접근을 요청하여 다운로드 2.1 데이터 생성-2 각각의 데이터를 pyspark를 통하여 csv 파일을 읽어 들여 출력 2.2 데이터 생성-3 homeprice의 데이터 값을 count한 결과 데이터가 상당히 불규칙하여, 지역별로 균등하게 나누었다. 2.3 데이터 생성-4 movehouse의 2,3,4월에 대한 전입-전출 = 변동량으로 하여, 새로운..

빅데이터

빅데이터 - 8. 자동차 온실가스 분석

2023.01.17

1. 분석 내용 차량, 브랜드별 탄소(온실가스) 배출량은 어느정도가 되는가? 전기차 시대의 규모가 점점 커짐에 따라 내연기관 차에서 발생하는 온실가스의 양을 알아보고, 과징금을 부여하여 본다. ※ 실제 통계된 내용은 정확한 자료가 아닐 수 있으며, 정확한 통계가 아닐 수 있습니다. 1.1 분석 1 1.2 분석 2 승용차 브랜드 5가지, 트럭 브랜드 3가지, 버스 브랜드 3가지를 선정 선정 브랜드 승용차 : 현대, 기아, 벤츠, bmw, 지프 트럭 : 현대, MAN, Volvo 버스 : 현대, 기아, 대우 각 브랜드별 차량을 3대씩 임의로 선정하여 33가지의 데이터를 모았다. 속성 값 : 번호/자동차종류/브랜드/자동차이름/연료/배기량/평균연비/탄소배출량/기준배출량 으로 정리 1.3 분석 3 각각의 브랜드와..

빅데이터

빅데이터 - 7. 단어 카운트

2022.10.09

1. 입력 데이터 로컬 파일 복사 $ hadoop fs -mkdir /sparkdata/wordcnt $ hadoop fs -put ~/hadoop3.3.0/*.txt /sparkdata/wordcnt 2. 데이터 적재 dataDF = sapark.read.text("/sparkdata/wordcnt") dataDF.printSchema() print("총 레코드(라인)수 = ", dataDF.count()) dataDF.show(5, truncate=False) 3. 구두점 기호 제거 실행 from pyspark.sql.functions import regexp_replace, trim, col, lower #데이터 정제 함수 : 구두점 기호 제거, 소문자 변환, 앞뒤 공백문자 제거 def remove..

빅데이터

빅데이터 - 6. SFPD 응용

2022.10.09

1. SFPD 데이터 다운로드 $ mkdir ~/sparkdata/sfpd $ cd ~/sparkdata/sfpd $ wget https://github.com/caroljmcdonald/sparkdataframeexample/blob/master/sfpd.csv 2. 하둡 적재 hadoop fs -mkdir /sparkdata/sfpd hadoop fs -put sfpd.csv /sparkdata/sfpd hadoop fs -ls /sparkdata/sfpd 3. SFPD 데이터 프레임 생성 4. 데이터 조사 질의 가장 사건이 많이 발생한 5개의 주소? 5. 가장 사건이 많이 발생한 5개의 주소, SQL 6. 가장 사건이 많이 발생한 5개의 지구대는? 7. 가장 많은 10개의 사건 해결 유형은? 8. ..

빅데이터

빅데이터 - 5. 스파크 데이터프레임 연산

2022.09.18

1. 데이터 프레임 생성 df = spark.createDataFrame([1,'홍민식', '컴퓨터공학과', 260), (2, '이세진', '경영학과', 240), (3, '김준헌', '철학과', 220), (4, '박서중', '경영학과', 230), (5, '김유민', '경영학과' 245), (6, '전인국', '컴퓨터공학과', 260)],['ID', '이름', '학과', '총점']) df.show() 2. 레코드 삽입 df1 = spark.createDataFrame([(7, '하상오', '컴퓨터공학과', 270), (8, '박선아', '컴퓨터공학과', 250)]) 새 데이터 프레임을 생성한 후, df2 = df.union(df1) 두 프레임을 결합한 새로운 데이터 프레임 생성 df2.show() 3..

티스토리툴바