본문 바로가기

DB (DataBase) (국비)/DB 메모11

자바에서 웹 크롤링 해보기 자바로 웹 크롤링을 해보기 라이브러리 ? 1. 자바 코드 묶음 (.jar) 2. 미리 구현한 코드를 제공하는 파일. 3. 라이브러리 분석 XXX (이미 완벽한 코드를 배포한 것이기 때문에 굳이 분석할 이유가 없다 !) 따라서, 라이브러리를 잘 활용하는것에 포커스를 맞춰야 한다. 4. Jsoup 클래스는 자동 import 불가능 하다. 자바에서 기본 제공 하는 클래스가 아니기 때문 이다. 따라서 라이브러리를 추가 해야 한다. https://jsoup.org/download 에서 다운로드가 가능하다. (.jar 파일) 외부의 jar 추가를 하면 자동 import가 가능해진다. [ Console ] indexOf 메서드랑 substring 메서드랑 조건에 맞게 사용해서, 아래와 같이 원하는 값만 구해낼 수 있.. 2023. 5. 31.
웹 크롤링 및 웹 브라우저의 개념 및 기타 정리 [ 웹 크롤링 ] 1. 기본적으로 코드를 분석하는 능력을 뜻함. 2. 데이터를 가공하는 능력. 3. 문서화. 스크랩핑 이란 ? 인터넷상에 존재하는 데이터를 프로그램을 이용해서 자동화된 방법으로 '수집'하는 작업. 크롤링 이란 ? 수집한 데이터들을 분류해서 별도로 '저장'하는 작업. 파싱 이란 ? 유효한 정보로 '가공' 하는 작업. 즉, 데이터를 이용할 형식에 맞게 추출하여, 의미있는 값으로 변형하는 작업. 수집(스크랩핑) → 저장(크롤링) → 가공(파싱) 을 묶어서 크롤링이라 정의. 이렇게 수집하고, 저장하고, 가공할 대상이 웹이면, 웹 크롤링 이라고 한다. [ 웹브라우저 ] 보통 크롬이 호환성이 높아서 많이 사용된다. 크롬 (웹 브라우저) 으로 보는 화면을 웹 페이지 라고 부른다. why ? 코드로 작.. 2023. 5. 31.