2014년 10월 20일 월요일

Ubuntu : solr 4.6 살펴보기 2

  • Nutch


  다운로드 : archive.apache.org/dist/nutch/


  • Nutch 설치 및 solr과 연동


  : 1.5.1 버전을 가지고 진행하였다.

  1. 다운로드 

  # 1.5.1 버전을 다운받는 과정이다.
  # 상위 폴더에는 다양한 버전들이 존재하므로 선택하여 다운로드 받아도 무방하다.
  > wget http://archive.apache.org/dist/nutch/1.5.1/apache-nutch-1.5.1-bin.tar.gz

  2. 압축 해제

  > gzip -d apache-nutch-1.5.1-bin.tar.gz
  > tar -xvf apache-nutch-1.5.1-bin.tar

  3. 폴더 이동

  # 편의를 위해 폴더를 옮기는 것 뿐이다.
  # 이 과정을 패스해도 상관없다.
  > sudo mv apache-nutch-1.5.1 /usr/share/nutch

  4. Path 설정

  # 편의를 위해 패스를 선언하여 진행하는 것이다.
  # 이 과정을 패스해도 상관없다.
  > sudo nano .bashrc

 ================================================================
  export NUTCH_HOME=/usr/share/nutch
  export PATH=$PATH:$NUTCH_HOME/bin:
 ================================================================

  > source .bashrc

  5. NUTCH_HOME으로 이동

  # urls 폴더 에서 seed.txt 파일을 생성하여 주소를 날린다.
  # crawl 폴더에 crawling한 데이터들을 저장한다.
  > sudo mkdir urls
  > sudo mkdir crawl

  6. NUTCH_HOME/conf/nutch-default.xml 파일 수정

  # 중간에 http.agent.name의 내용을 수정한다.
  > sudo nano nutch-default.xml

 ================================================================
  ...
  (생략)

  <!-- HTTP properties -->
  <property>
  <name>http.agent.name</name>
  <!-- value를 지정해준다. -->
  <value>nutch spider</value>
  <description>HTTP 'User-Agent' request header.</description>
  </property>

  (생략)
  ...
 ================================================================

  7. NUTCH_HOME/conf/regex-urlfilter.txt 파일 수정

  # 마지막 라인을 수정해 준다.
  > sudo nano regex-urlfilter.txt
 ================================================================
  ...
  (생략)

  +^http://([a-z0-9]*\.)*naver.com/
 ================================================================

  8. NUTCH_HOME/conf/schema-solr4.xml 파일 수정

  > sudo nano schema-solr4.xml

 ================================================================
  ...
  (생략)

  <!-- version="1.5.1" 을  version="1.5"로 수정한다. --> 
  <schema name="nutch" version="1.5">

  ...
  (생략)

  <!-- <fields> 안에 선언되어 있는 <field name ="boost"...>를 찾는다.
  type="string"을 type="long"으로 수정한다.
  또한 _version_을 추가한다.  -->   
  <field name="_version_" type="long" stored="true" indexed="true"/>
  <field name="boost" type="float" stored="true" indexed="true"/>  

  (생략)
  ...
 ================================================================

  9. NUTCH_HOME/conf/schema-solr4.xml 파일 복사

  #기존에 있던 schema 파일의 이름을 변경한다.
  #nutch에서 수정한 schema-solr4.xml을 schema.xml로 사용한다.
  > sudo mv SOLR_HOME/collection1/conf/schema.xml SOLR_HOME/collection1/conf/schema.xml.org
  > sudo cp NUTCH_HOME/conf/schema-solr4.xml SOLR_HOME/collection1/conf/schema.xml

  10. SOLR_HOME/collection1/conf/stopwords_en.txt 생성

  > sudo nano stopwords_en.txt

 ================================================================
 #빈 공간으로 남기고 저장한다.
 ================================================================

  11. NUTCH_HOME/urls/seed.txt 생성

  #앞서 regex-urlfilter.txt에서 지정한 주소를 기록한다.
  > sudo nano seed.txt

 ================================================================
  http://www.naver.com
 ================================================================

  12. jetty 재실행

  > sudo service jetty restart

  13. crawling 실행

  # NUTCH_HOME에서 명령어를 타이핑한다.
  # 깊이는 3으로, 앞에 존재하는 길이 50을 긁어온다.
  > bin/nutch crawl urls -solr http://localhost:8983/solr/collection1 -depth 3 -topN 50

댓글 없음:

댓글 쓰기