본문 바로가기

분류 전체보기

Scrapy 데이터 추출하고 수집하기, 파이참에서 Anaconda Prompt에서 scrapy startproject crawler_test 입력해서 새 프로젝트 생성.파이참을 켜고 File->Open에서 명령창의 홈 경로에 있는 crawler_test 열기.items.py 파일을 열고 다음과 같이 입력import scrapy class CrawlerTestItem(scrapy.Item): #수집하고자 하는 정보 저장 title = scrapy.Filed() score = scrapy.Field() genres = scrapy.Field() consensus = scrapy.Field()spiders 폴더에 가서 새 파이썬 파일 생성 rt_spider.pyimport scrapy from crawler_test.items import CrawlerTes..

Scrapy의 구조 크롤링 맛보기 scrapy 프레임워크 기본 구조scrapy startproject test 명령을 입력하면 scrapy 프레임워크가 자동 생성된다. 이 안에는 다음과 같은 기본 트리가 있다.test--__init__.py--items.py--pipelines.py--settings.py--spiders----__init__.pyscrapy.cfg spiders어떤 웹 사이트들을 어떻게 크롤링할 것인지 명시, 각각의 웹 페이지의 어떤 부분을 스크래핑할 것인지 명시하는 클래스items웹 페이지에서 원하는 부분을 스크랩하여 저장할 때 사용하는 사용자 정의 자료구조 클래스pipelines스크래핑 결과물을 Item 형태로 구성하였을 때, 이를 자유롭게 가공하거나 다양한 파일 형태로 저장할 수 있도록 하는 클래스, DB에 넣을 ..

윈도우에서 scrapy 설치 및 확인 Anaconda Prompt를 켜고(없다면 설치..) conda create -n py27 python=2.7을 입력한다. 설치를 기다린다. 설치가 완료된 뒤python --version을 입력하면 기존에 사용하던 버전이 나온다. 3.6이라던가..activate py27을 입력해서 아까 만든 가상 환경을 실행하고 python --version을 입력한다 그러면 python2.7.x.가 나온다.가상환경을 종료하려면 deactivate py27 입력 scrapy를 설치할 때 lxml 라이브러리가 필요하다. https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 여기로 이동해서 운영체제 비트 수에 맞는 파일을 받는다 32비트면 lxml‑4.2.1‑cp27‑cp27m‑win32...

우분투에서 크롤링하기 위한 설치 설치하기우분투 터미널에서apt-get install build-essential 입력파이썬은 기본으로 설치되어 있다고 함 python -V 치면 파이썬 버전이 나옴apt-get install python-pip 입력, pip는 파이썬으로 작성된 패키지 라이브러리를 관리해줌pip list를 입력하면 beautifulsoup 등 라이브러리가 나옴가상 환경에서 파이썬을 사용하기 위해 pip install virtualenv virtualenvwrapper를 입력한다.가상 환경을 쓰면 오류가 났을 때 지우고 다시 설치하면 된다. vi bach.rc에 들어가서 설정을 한다.파일의 맨 아랫줄로 이동한 뒤insert 또는 i 버튼 누르고export WORKON_HOME=$HOME/.virtualenvssource /..

프로그래머의 위기지학 창의성에 도움되는 책 10권 https://www.slideshare.net/juneaftn/10-presentation-842575 프로그래머의 위기지학 http://agile.egloos.com/2807583 프로그래밍을 어떻게 배우고 어떻게 가르칠까 http://agile.egloos.com/5905451

네이버 홈 section_navbar 크롤링 초간단 우선 웹 서버에다가 웹 페이지를 보내달라고 요청하기 위해 urllib.request를 import 한다.url = 'https://www.naver.com/'을 요청하면 DNS에서 대응되는 IP주소에 있는 요청 페이지를 띄워준다.main 함수에서 naver함수를 호출하면 첫 출에 with as 가 보이는데 열어 놓은 url을 인터프리터한테 닫으라고 하는 것이다.with 안에 들여쓰기된 부분이 종료되면 해당 url가 닫히게 된다.열린 url에 있는 코드를 읽어 html 변수에 넣는다.for문에서는 태그 이름이 span이고 class가 an_text인 모든 것들을 찾아 prnt에 하나씩 넣는다.태그를 제외한 알맹이만 뽑아내고 싶을 때는 해당 객체에 콤마를 붙이고 get_text()를 사용한다. import ..

intensity table에서 id 뽑아내기 intensity_id를 세션에 저장하고 추후에 사용해야함. session에 저장되어 있는 user_id와 일치하면서 intensity_id 중 max인 애가 최근에 생성된 intensity이므로 sql문으로 찾아낸 뒤$_SESSION['intensity_id']에 저장하기. 운동이 끝나면 curtime()으로 end_time에 update 하기 UPDATE 테이블명 SET 필드명 = "바꿀 값" WHERE 필드명= "조건 값" 출처: http://ra2kstar.tistory.com/76 [초보개발자 이야기.] limit는 실수로 여러개의 값을 수정하면 안되니 예방책으로 써놓는다. update intensityset end_time = curtime(), workout_time = subtime(end..

이클립스(eclipse)에서 웹 크롤링 with MongoDB 몽고 DB와 연결하기 위해 ODBC, JDBC같은 library가 필요하다. 다운 받아야 하는 것은 mongo-java-driverhttps://oss.sonatype.org/content/repositories/releases/org/mongodb/mongo-java-driver/3.7.0/ 에 접속해서 mongo-java-driver-3.7.0.jar 다운 이클립스 상의 java project에서 properties 들어가고 java build path -> library탭 클릭 -> external jars 선택하고 다운 받은 .jar 파일 선택하고 적용 몽고 DB 연동해서 지난 번에 한 웹 크롤링 결과를 저장한다. package crawler; import java.io.IOException;im..

이전 1 ··· 37 38 39 40 41 42 43 ··· 69 다음

티스토리툴바