마스터Q&A 안드로이드는 안드로이드 개발자들의 질문과 답변을 위한 지식 커뮤니티 사이트입니다. 안드로이드펍에서 운영하고 있습니다. [사용법, 운영진]

jsp와 아파치 넛츠를 이용한 웹어플리케이션을 만드려는 데 질문드려요

0 추천
제가 넛치를 이용해서 만들려는 웹 어플리케이션을 만들려고 하는데요 
저의 현재 기술 능력입니다.
1. 웹 어플리케이션을 만들어본 경험 이있습니다
 
하고자 하는 목적 
<input type="text"   부분과 
<input  value="크롤러 시작"type="submit" 부분을 두고 > 화면으로 구성하고 
 
text 입력란에 url 을 적고선 크롤러 시작을 눌르면 크롤링 이 시작되고 그결과값데이타는 
oracle 또는 mysql 에 저장 하고싶습니다 .
 
질문 
1. nutch 와 오라클 연동 법을 검색해도 잘안나오는거 같은데 제가 생각하는 구성을 만들수있는지와 구성하려면 어떻게 해야하나요?
 
2.위와 같이 jsp 와 디비와 nutch 를 이용한 크롤러를 만들려는데 워낙 예제가 적다 보니깐 어떤식으로 접근해야하는지 모르겠습니다. 어떠한 접근을 해야하는지 가르쳐주세요
2-1. 예로 넛치 소스를 분석해서 crawling 하는 부분의 jar 파일이나 소스파일을 복사해서 
제프로젝트에 자바소스에 넣고 돌려버려야하나 라는 생각을 하고있습니다 
이와 같은 접근이 옳은 접근인지는 모르겠습니다 워낙 오픈소스에 대한 국문 자료도 적고 외국 자료도 검색을 잘하는법을 몰라서요 
 
시간이 나신다면 답변 주세요 lemeraldl@naver.com   제 이메일 이에요 
 
읽어주셔서 감사합니다.
익명사용자 님이 2014년 12월 29일 질문

1개의 답변

+1 추천
하시고자 하는 목적은 이미 Nutch 자체의 기능입니다 
 
Nutch는 오픈소스 웹 검색엔진이고 크롤러로 인덱싱을 하고 검색을 하도록 해주는 기능의 오픈소스 입니다
 
JAVA로 개발되어있고요
 
Nutch => 크롤러 + 검색엔진 
 
검색엔진 즉 텍스트를 분석하는 부분은 루씬이고요
 
아마 mysql등에 결과를 등록 하도록 하는 부분도 포함되어 있을 겁니다.
 
루씬은 파일로 저장 되게 되있지만요..
서영아빠 (580 포인트) 님이 2014년 12월 29일 답변
크롤러로 인덱싱을 하고  라는 의미가 정확하게 어떤의미이죠??

크롤러로  웹사이트의 데이터를 저장한다는 의미인가요???... 한다면 어디다가 하는것인가요?? ... 검색을 해서 몇몇 자료를 보니깐 웹 디비라는 개념이 나와서
굉장히 헷깔려서요  

정확하게 이해를 못하겠어서요 워낙 자료가 없다보니깐요 ...

크롤러는 웹사이트를 돌아다니면서 텍스트 데이타를 모으는걸로(크롤링) 알고있고 ....

루씬은 검색 기능이 있다는것으로만 알고있었는데요  그래서

제가 질문드린 부분을 구현할려면 nutch의 크롤링 기능만 어떻게 연동시켜서 쓰고  그 결과값을 어떻게  오라클 또는  mysql과  웹어플리케이션에 연동한뒤 저장시킬지 고민입니다
웹 크롤러로 링크를 타고 다니며 내용을 긁어와 루씬으로 그 텍스트를 형태소분석기로 분석 저장합니다. nutch 자체에 크롤러가 있어 링크를 타고 내용을 루씬으로 분석 저장합니다

nutch + Hadoop +Solr 이런 키워드로 검색해보세요

좋은 사이트가 있어 공유 합니다
http://www.joinc.co.kr/modules/moniwiki/wiki.php/Site/Search/Document/nutch

원하시는 MySql 관련 포스팅도 있네요
http://myallforyou.blogspot.kr/2012/10/nutch-21-with-mysql.html
...