'크롤러' 태그의 글 목록

[Selenium(셀레늄) 사용하기] 그전에 사용했던 Requests와 BeautifulSoup는 HTML문서를 가져오고 Parsing하는 역할을 했습니다.Selenium은 조금더 업그레이드 해서 브라우저를 가동시켜 HTML문서를 객체화 시킵니다.직접 브라우저를 가동시키면 어떤점이 다르냐.웹페이지를 작동시킨 이 후, 나중에 구동되는 Javascript 이 후의 내용도 볼 수 있습니다. 웹페이지가 최초 동작한 이 후, HTML DOM (구조)이 바뀌는 경우에 필수적이죠.실제로 해외축구 사이트 (프리미어리그, 라리가)와 같은 순위표를 보여주는 사이트에 들어가서 순위를 클릭해보면최초로 보여지는 테이블 이 후, 현재 순위에 맞게 순위가 정렬되는 걸 아주 찰나에 확인해 볼 수 있습니다. 이런 경우에는 실제로 페이..

Data Science/크롤링 & 텍스트마이닝 2018. 10. 31. 02:36

크롤링 시작하기

[크롤링을 위한 Tool] 크롤링을 위해서 HTML문서를 가져오는 작업이 필요합니다. 1. Requests Requests로 원하는 페이지의 HTML문서를 불러올 수 있습니다.먼저 python 라이브러리로 requests를 설치 합니다. pip install requests(Mac 이용자는 python3를 이용할 시 pip3로 다운로드) import requests req = requests.get('https://importer.ec21.com/shoe.html') ## HTML Sourcehtml = req.text ## HTTP Headerheader = req.headers ## HTTP Status (200이면 성공응답)status = req.status_code ## HTTPis_ok = re..

Data Science/크롤링 & 텍스트마이닝 2018. 10. 30. 23:31

크롤링이란?

[크롤링이란?] 인터넷에 데이터가 방대해지면서 우리는 그걸 활용할 필요성이 높아졌습니다. 그런 정보들을 우리가 분석하기 쉽고 활용하기 쉽게 끔 데이터를 수집하는 행위를 크롤링(Crawling) 이라고 하고 크롤링하는 프로그램을 크롤러(Crawler) 라고 합니다. 원하는 데이터를 추출하는 스크래핑(Scraping)과 개념이 혼동되기도 하는데요.사실 크롤링의 정확한 정의는 다양한 웹사이트의 페이지를 브라우징하는 작업을 말합니다.그런데 사실상 정보를 수집하기 위해선 브라우징만 하지 않죠. 페이지 안에 있는 데이터를 추출해서 가공하는게 대부분 최종 목표입니다.결국 크롤링 => 스크래핑의 과정으로 넘어가는 거죠.그래서 이 두 개념이 혼용되는 것 같습니다. 해외에서는 주로 스크래핑이라고 쓰는 걸로 알고 있습니다...

Data Science/크롤링 & 텍스트마이닝 2018. 10. 30. 23:20

이전 1 다음

이전 다음

최근에 올라온 글

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

공지사항

최근에 달린 댓글

Two Earth_Analysis

티스토리툴바