본문 바로가기

Python

네이버 홈 section_navbar 크롤링 초간단 우선 웹 서버에다가 웹 페이지를 보내달라고 요청하기 위해 urllib.request를 import 한다.url = 'https://www.naver.com/'을 요청하면 DNS에서 대응되는 IP주소에 있는 요청 페이지를 띄워준다.main 함수에서 naver함수를 호출하면 첫 출에 with as 가 보이는데 열어 놓은 url을 인터프리터한테 닫으라고 하는 것이다.with 안에 들여쓰기된 부분이 종료되면 해당 url가 닫히게 된다.열린 url에 있는 코드를 읽어 html 변수에 넣는다.for문에서는 태그 이름이 span이고 class가 an_text인 모든 것들을 찾아 prnt에 하나씩 넣는다.태그를 제외한 알맹이만 뽑아내고 싶을 때는 해당 객체에 콤마를 붙이고 get_text()를 사용한다. import ..
웹 크롤러 IT 기업 채용 정보 크롤링을 위한 기초 1. 파이썬을 설치해야함2. 파이썬 개발 환경인 pycharm을 설치해야함.3. 윈도우 OS... cmd 창을 켜고 cd AppData\Local\Programs\Python\Python36-32\Scripts 입력해서 파이썬이 설치된 폴더로 이동4. pip install beautifulsoup45. pip install lxml6. pip install html5lib7. pip 업그레이드하라고 나오면 pip install --upgrade pip8. pycharm 켜고 폴더 생성, 파일 생성. 파일명은 crawler.py 정도로..9. 아래 코드 입력후 ctrl + shift + F10 으로 실행해보기.10. 결과 창에 뭐가 나오는지 확인 아래는 간단 코드...
ValueError: invalid literal for int() with base 10: ' ' 이러한 에러가 나는 이유1 2 3 4와 같이 값 사이에 공백이 있는 입력을 받았는데 공백을 int로 형변환 하면 생긴다.input이나 sys.stdin.readline()으로 입력 받으면list = [1, ' ', 2, ' ', 3, ' ', 4] 이런식으로 리스트에 값이 들어갈 것이다.for i in range(n): int(list[i])이렇게 되면 에러가 뜰 것이다. 1은 str형이라 int형으로 변환이 가능하지만, ' '은 공백이라 매칭되는 int형 값이 나올 수 없다. sys.stdin.readline().split(' ') 이렇게 split()을 써서 공백을 기준으로 분리해야한다.