본문 바로가기

Java

자바 jdk 설치 및 환경 변수 설정 http://www.oracle.com/technetwork/java/javase/downloads/index.html 오라클 사이트에 들어가서 java SE를 다운로드한다. Accept를 누르고 운영체제에 맞는 jdk 파일을 클릭해서 다운 받는다. Window 기준으로 설치함.설정은 바꾸지 말고 next 누른다. 내 PC에서 마우스 오른쪽 키 누르고 속성으로 들어간다. 고급 시스템 설정 -> 환경 변수 클릭 후 시스템 변수에서 새로 만들기 클릭 -> 변수 이름 JAVA_HOME, 변수 값은 C:\Program Files\java\jdk어쩌고 입력시스템 변수에서 Path 클릭 -> 새로 만들기 -> %JAVA_HOME%\bin 입력시스템 변수에서 새로 만들기 -> 변수 이름 CLASSPATH, 변수 값 ..
이클립스(eclipse)에서 웹 크롤링 with MongoDB 몽고 DB와 연결하기 위해 ODBC, JDBC같은 library가 필요하다. 다운 받아야 하는 것은 mongo-java-driverhttps://oss.sonatype.org/content/repositories/releases/org/mongodb/mongo-java-driver/3.7.0/ 에 접속해서 mongo-java-driver-3.7.0.jar 다운 이클립스 상의 java project에서 properties 들어가고 java build path -> library탭 클릭 -> external jars 선택하고 다운 받은 .jar 파일 선택하고 적용 몽고 DB 연동해서 지난 번에 한 웹 크롤링 결과를 저장한다. package crawler; import java.io.IOException;im..
이클립스(eclipse)에서 웹 크롤링 윤리어떤 웹 사이트는 크롤링을 하면 안된다. 특정 시간 내에 너무 많은 크롤링을 하면 해당 사이트에서 접속을 차단할 수도 있다. 좋은 목적으로 써야함(해커 입장이 아닌...), 웹 크롤링을 활용해서 돈 벌기 : http://www.entropywebscraping.com/2017/01/01/big-list-web-scraping-uses/함정은 단순히 크롤링을 해서 돈을 자동으로 벌지는 못한다는 점이다. 명확한 목표가 있어야하고 이런 저런 데이터를 긁어 모은 뒤 돈이 되게 해주는 데이터 과학자 등의 고급 인력이 필요할 수도 있다... jsoupHTML 기반의 내용물에 쓰이는 자바 기반의 라이브러리다.데이터를 추출하고 다룰 수 있도록 매우 편리한 API를 제공한다.기능 : CSS selector, DOM ..