데이터프레임

빅데이터

빅데이터-11. 지하철 호선에 대한 승,하차 인원 예측

1. 데이터 생성 subway.csv 파일을 생성 후 불러옴 훈련 데이터와 테스트 데이터를 8:2의 비율로 나눈 후, 승차인원과 하차인원을 출력 2. 데이터 가공 피처 전처리를 실행 한 후, 데이터의 숫자열들과 인코드 열들의 피처들을 단일 피처로 결합 파이프 라인을 구축하여, 훈련 데이터로 학습 모델을 구축 학습 모델에 적용 후 데이터 프레임을 변환 3. 예측 정확도 예측 정확도를 살펴보니 0.9대의 정확도를 측정 아래와 같이 승하차 인원에 대한 예측도를 볼 수 있다. 4. 정확도 시각화 데이터를 시각화하여 살펴본 결과 5호선이 가장 높았고, 7호선, 2호선 순인 것을 알 수 있었다.

빅데이터

빅데이터 - 9. 인구수와 이동량에 대한 집값 상승률 비교

1. 데이터 소개 homeprice.csv : 3개월간의 전국 집값, 집값의 상승률 movehouse.csv : 3개월간의 전국 이동량 koreahuman.csv : 3개월간의 인구수 ※ 실제 통계된 내용은 정확한 자료가 아닐 수 있으며, 정확한 통계가 아닐 수 있습니다. 2. 데이터 생성-1 csv 파일을 작성 및 클라우드에 올린 후, 해당 클라우드 사이트에 접근을 요청하여 다운로드 2.1 데이터 생성-2 각각의 데이터를 pyspark를 통하여 csv 파일을 읽어 들여 출력 2.2 데이터 생성-3 homeprice의 데이터 값을 count한 결과 데이터가 상당히 불규칙하여, 지역별로 균등하게 나누었다. 2.3 데이터 생성-4 movehouse의 2,3,4월에 대한 전입-전출 = 변동량으로 하여, 새로운..

빅데이터

빅데이터 - 8. 자동차 온실가스 분석

1. 분석 내용 차량, 브랜드별 탄소(온실가스) 배출량은 어느정도가 되는가? 전기차 시대의 규모가 점점 커짐에 따라 내연기관 차에서 발생하는 온실가스의 양을 알아보고, 과징금을 부여하여 본다. ※ 실제 통계된 내용은 정확한 자료가 아닐 수 있으며, 정확한 통계가 아닐 수 있습니다. 1.1 분석 1 1.2 분석 2 승용차 브랜드 5가지, 트럭 브랜드 3가지, 버스 브랜드 3가지를 선정 선정 브랜드 승용차 : 현대, 기아, 벤츠, bmw, 지프 트럭 : 현대, MAN, Volvo 버스 : 현대, 기아, 대우 각 브랜드별 차량을 3대씩 임의로 선정하여 33가지의 데이터를 모았다. 속성 값 : 번호/자동차종류/브랜드/자동차이름/연료/배기량/평균연비/탄소배출량/기준배출량 으로 정리 1.3 분석 3 각각의 브랜드와..

IT의 큰손
'데이터프레임' 태그의 글 목록