- Nutch 설치 및 solr과 연동
: 1.5.1 버전을 가지고 진행하였다.
1. 다운로드
# 1.5.1 버전을 다운받는 과정이다.# 상위 폴더에는 다양한 버전들이 존재하므로 선택하여 다운로드 받아도 무방하다.
> wget http://archive.apache.org/dist/nutch/1.5.1/apache-nutch-1.5.1-bin.tar.gz
2. 압축 해제
> gzip -d apache-nutch-1.5.1-bin.tar.gz> tar -xvf apache-nutch-1.5.1-bin.tar
3. 폴더 이동
# 편의를 위해 폴더를 옮기는 것 뿐이다.# 이 과정을 패스해도 상관없다.
> sudo mv apache-nutch-1.5.1 /usr/share/nutch
4. Path 설정
# 편의를 위해 패스를 선언하여 진행하는 것이다.# 이 과정을 패스해도 상관없다.
> sudo nano .bashrc
================================================================
export NUTCH_HOME=/usr/share/nutch
export PATH=$PATH:$NUTCH_HOME/bin:
================================================================
> source .bashrc
5. NUTCH_HOME으로 이동
# urls 폴더 에서 seed.txt 파일을 생성하여 주소를 날린다.# crawl 폴더에 crawling한 데이터들을 저장한다.
> sudo mkdir urls
> sudo mkdir crawl
6. NUTCH_HOME/conf/nutch-default.xml 파일 수정
# 중간에 http.agent.name의 내용을 수정한다.> sudo nano nutch-default.xml
================================================================
...
(생략)
<!-- HTTP properties -->
<property>
<name>http.agent.name</name>
<!-- value를 지정해준다. -->
<value>nutch spider</value>
<description>HTTP 'User-Agent' request header.</description>
</property>
(생략)
...
================================================================7. NUTCH_HOME/conf/regex-urlfilter.txt 파일 수정
# 마지막 라인을 수정해 준다.> sudo nano regex-urlfilter.txt
================================================================
...
(생략)
+^http://([a-z0-9]*\.)*naver.com/
================================================================
8. NUTCH_HOME/conf/schema-solr4.xml 파일 수정
> sudo nano schema-solr4.xml================================================================
...
(생략)
<!-- version="1.5.1" 을 version="1.5"로 수정한다. -->
<schema name="nutch" version="1.5">
...
(생략)
<!-- <fields> 안에 선언되어 있는 <field name ="boost"...>를 찾는다.
type="string"을 type="long"으로 수정한다.
또한 _version_을 추가한다. -->
<field name="_version_" type="long" stored="true" indexed="true"/>
<field name="_version_" type="long" stored="true" indexed="true"/>
<field name="boost" type="float" stored="true" indexed="true"/>
(생략)
...
================================================================9. NUTCH_HOME/conf/schema-solr4.xml 파일 복사
#기존에 있던 schema 파일의 이름을 변경한다.#nutch에서 수정한 schema-solr4.xml을 schema.xml로 사용한다.
> sudo mv SOLR_HOME/collection1/conf/schema.xml SOLR_HOME/collection1/conf/schema.xml.org
> sudo cp NUTCH_HOME/conf/schema-solr4.xml SOLR_HOME/collection1/conf/schema.xml
10. SOLR_HOME/collection1/conf/stopwords_en.txt 생성
> sudo nano stopwords_en.txt================================================================
#빈 공간으로 남기고 저장한다.
================================================================
11. NUTCH_HOME/urls/seed.txt 생성
#앞서 regex-urlfilter.txt에서 지정한 주소를 기록한다.> sudo nano seed.txt
================================================================
http://www.naver.com
================================================================
12. jetty 재실행
> sudo service jetty restart13. crawling 실행
# NUTCH_HOME에서 명령어를 타이핑한다.# 깊이는 3으로, 앞에 존재하는 길이 50을 긁어온다.
> bin/nutch crawl urls -solr http://localhost:8983/solr/collection1 -depth 3 -topN 50
댓글 없음:
댓글 쓰기