2015년 7월 27일 월요일

중간 잡담

작년 겨울에 Solr와 Nutch를 이용하여 간단한 검색엔진을 구현했었다.


Nutch를 이용하여 웹페이지들을 크롤링하여 정보를 수집했고, Solr를 이용하여 색인 처리하여 그걸 웹으로 구현해 검색 결과를 보여주는 그런 정말 간단한 엔진이었다.

또한 Hadoop과 NoSQL을 이용하여 검색어 순위를 집계해서 실시간으로 결과를 산출하는 그런 프로젝트였다.

결론부터 말하면 한달정도 작업하여 완성하였으나, 아쉬움이 많이 남는 프로젝트가 되었다.

우선 1차적으로 구상했던 것은 실시간으로 웹 정보들을 수집하여 색인처리하고 정보들을 갱신시키는 것을 구상했으나 실패.

지금 생각해보면 아쉬움도 많이 남고 부족한 부분도 많지만, 한번쯤 다시 해보면 어떨까 한다.


Solr를 샤딩 처리하여 다중접속을 생각했으나 실패.

멀티미디어 정보(그림, 비디오 파일 등)를 저장하고자 했으나, 단순 텍스트 저장만 100기가에 육박하는 관계로 실패.(웹페이지 숫자는 정확하게 기억나지 않지만, 꽤 많은 양이긴 했다. 크롤링한 기간은 한달정도.)

또한 한글 형태소 분석기를 직접짜보려고 했으나, 시작도 하기 전에 한달짜리 프로젝트가 아님을 깨닫고 포기.



댓글 없음:

댓글 쓰기