CI 묻고 답하기

제목 안녕하세요 web Crawler 개발에 대해서 조언 구하고싶습니다.
글쓴이 dataguru 작성시각 2013/09/23 00:45:02
댓글 : 14 추천 : 0 스크랩 : 0 조회수 : 22151   RSS
 이번에 Crawler , data mining 를 개발하게 되었습니다.


개발환경
언어 : Python , PHP 중 1택
서버 : Apache
DBMS : MySQL

어디서 부터 정보를 모아야 할지 막막합니다.

우선 저는 국내에 출판된 책중 파이썬 관련 책에 크롤러 관련 목차가 있어 이책부터 볼려고합니다.
그리고 data mining은 어떻게 접근 하는것이 좋을까요?

Crawler 와 data mining 분석시스템 설계에 대하여 접근방법 조언 구하고싶습니다. 
 
태그 Crawler,data mining
 다음글 페이지 네이션 질문 드립니다. (5)
 이전글 죄송합니다, 도저히 안되서 다시 질문 드립니다. (4)

댓글

변종원(웅파) / 2013/09/23 10:09:03 / 추천 0
너무 포괄적인 질문이라 답변하기가 그렇네요. ^^;

크롤링의 범위와 크롤링 대상을 정해야 하겠죠. 데이터 가공과도 연관이 되는 부분이구요.

이런 포괄적 질문에도 육하원칙은 적용이 됩니다.

뭘, 왜 하고 싶은지 알아야 그에 맞는 답을 합니다. 

그러면 다시 스무고개가 시작되고(스무고개도 문제를 풀어가는 한가지 방식이긴 합니다만
소모적이라는 단점이...)
들국화 / 2013/09/23 10:11:44 / 추천 0
검색엔진에 대해 공부해 보면 되지 않을까요.

언어야 각 언어가 장단점이 있으니 익숙하거나 아니면 사용하기 편리한 언어로 하면 될거 같네요.
milosz / 2013/09/23 11:08:08 / 추천 0
CI 포럼에서 파이썬 답을 하는 것은 좀 이상하긴 하지만;
파이썬의 경우 requests, beautifulSoup를 사용하면 간편하게 데이터를 불러와 가공할 수 있습니다.
CI로 구현하고자 하면 curl 등을 찾아보시면 될텐데, 데이터 가공이 용이하려면 아무래도 파이썬 쪽이 더 나을 수 있겠네요.
최용운 / 2013/09/24 13:12:48 / 추천 0
Java 하신다면 apache의 오픈소스 solr를 사용하시면 좋으실텐데..한번 참고해서 보세요. http://projects.apache.org/projects/solr.html
dataguru / 2013/09/24 16:11:17 / 추천 0
 변종원님 조언 감사합니다. 그부분에 대해서 다시 생각해보겟습니다.

dataguru / 2013/09/24 16:11:26 / 추천 0
 들국화님 이번엔 파이썬 공부해서 개발을 해야할것같습니다.
감사힙니다.


dataguru / 2013/09/24 16:11:35 / 추천 0
miosz 님 감사합니다.
좋은 정보 감사합니다. 파이썬에 괜찮은 책이 있어 파이썬으로 해야할듯합니다.

dataguru / 2013/09/24 16:11:43 / 추천 0
최용운님 감사합니다. solr 라는건 처음들어 보는데 한번 참고해 보겟습니다.

양승현 / 2013/09/27 08:34:12 / 추천 0
전 snoopy 라는 라이브러리를 사용해 긁어온 데이터중 dom을 선택하여 가공하고 디비에 쌓았습니다. 반복되는 페이지의 url을 먼저 파악하시고 하나의 프로세스 안에서 반복하여 ajax형태로 다른 페이지를 호출하여 처리했던 것으로 기억되네요.
하얀기억 / 2013/09/27 14:06:25 / 추천 0
crawling 은 python scrapy 쓸만한 것 같구요
광범위하게 crawling 하시려면 celery 같은 task queue 사용해서 분산 처리하면 어떨까 하네요
data mining은 solr나 elastic search 공부하시면 도움이 될 것 같습니다
요즘은 elastic search 많이들 사용하는 것 같아요
변종원(웅파) / 2013/09/27 14:44:40 / 추천 0
검색하다보니 http://getfastcat.org/ 이런 것도 나오네요.
우리나라에서 만들어진거라 한글형태소분석기 내장. ^^
dataguru / 2013/10/01 09:57:32 / 추천 0
 양승현님 감사합니다. 스누피 클레스는 예전에 사용해봐서 어떻게 만들어야 할지 알것같습니다.

dataguru / 2013/10/01 09:58:50 / 추천 0
 하얀기억님 감사합니다.
scrapy , celery , task queue 에대해서 알아보겟습니다.
dataguru / 2013/10/01 09:59:53 / 추천 0
 웅파님 감사합니다. 하지만 그쪽링크가 깨져있네요. 제가 따로 알아보겟습니다.