크롤링&스크래핑

크롤링&스크래핑

Crawling STEP 3 - 셀레니움을 통해 JavaScript로 선언된 데이터 가져오기

★ JavaScript 구문을 가져오기 JSoup으로는 사용이 불가함. 셀레니움(Selenium)을 통해 가져오기 ★ 셀레니움(Selenium) 테스트 자동화 툴 https://www.selenium.dev/downloads/ Downloads Selenium automates browsers. That's it! www.selenium.dev 자바 버전 다운로드 압축 해제 후, lib 폴더에 있는 jar파일 lib에 넣기 다 넣어도 됨. ★ ChromeDriver 다운로드 현재 내 버전 확인 도움말 -> Chrome 정보 현재 버전 : 버전 113.0.5672.127 https://chromedriver.chromium.org/ ChromeDriver - WebDriver for Chrome WebDr..

크롤링&스크래핑

Crawling STEP 2 - 다음 영화페이지 크롤링

★ 다음 영화 페이지 https://movie.daum.net/main HOME Daum영화에서 자세한 내용을 확인하세요! movie.daum.net 영화 박스오피스 순위 -> 크롤링 개발자 모드 F12를 이용하여 태그 분석 ★ 소스 package com.test.crawling; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Ex03 { public static void main(String[] args) { try { //가져올 URL String url =..

크롤링&스크래핑

Crawling STEP 1 - JSOUP 사용

★ 크롤링(Crawling) 웹 사이트 > 페이지를 탐색해서 내가 원하는 데이터를 수집하는 행동 a. 상대방이 나에게 DB권한을 준다면..? > 실질적으로 불가능 b. 상대방이 외부에 OpenAPI를 공개 > 일부 공개 > 무난한 방법 c. a(x), b(x) > 웹페이지의 소스를 가져와서 직접 원하는 데이터를 추출하는 방법 > 크롤링 크롤링 주의점! - 허가 문제, 저작권 문제 - 정도껏~ > 긁어오는 작업 > 프로그램 > 속도 빠름!! & 횟수 많음!! > 서버 부하 + 트래픽 발생 - 크롤링 금지 사이트(접속 불가능 처리) 크롤링 사전 지식 1. HTML 이해 2. CSS 이해, JavaScript 이해 3. 자바 기반 > 클라이언트 코드 파싱 라이브러리 ■ Jsoup 브라우저처럼 사이트 접속 > ..

IT의 큰손
'크롤링&스크래핑' 카테고리의 글 목록