2009-04-16

SlothLib - 3. 시작전 준비

해당 페이지 : http://www.dl.kuis.kyoto-u.ac.jp/slothlib/?%C1%B0%BD%E0%C8%F7

C# 라이브러리로 되어있는 SlothLib를 사용하기 위해 다음과 같은 사항을 준비해야 한다.

1. 당연한 이야기지만 Visual Studio 2005 또는 그 이상이 인스톨되어 있어야 한다.

2. 제공하는 라이브러리 외에 외부 프로그램을 이용하는 경우가 있다.
이 경우 외부 프로그램을 다운받아놓고 C#에서 경로를 설정해서 사용한다.
필요한 경우는 다음과 같다.

 가. Chasen(茶筌), MeCab : 일본어 형태소분석기 (도쿄대학)
  Charsen : http://sourceforge.jp/projects/chasen-legacy/files/
  Mecab : http://sourceforge.net/project/showfiles.php?group_id=177856
  - 별다른 세팅이 필요 없으며, 개인적 관점에서 무척 빠르고 성능도 뛰어나다고 본다.

 나. SS Tagger : 영어 형태소분석기 (도쿄대학)
  http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/postagger/
  - 영어의 경우는 이것을 이용한다. 속도는 느린 편, 현재 내가 사용하는 형태소분석기
  - 역시 별다른 세팅이나 Training과정이 필요 없는 것이 큰 장점
  - 성능은 괜찮은 것 같은데 특수문자 (<,>,# 등)를 잘못 인식하는 경우가 많다.

 다. TreeTagger : 독일 Stuttgart대학에서 만든 형태소분석기
  http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
  - 다양한 언어를 지원 (독어, 영어, 불어, 이탈리아어 등 12개 언어)
  - Training이 필요하고 Perl 인터페이스가 필요하다.
  # 안써봐서 성능은 모르겠다. 나중에 써볼 생각

 라. xdoc2txt
  http://www31.ocn.ne.jp/~h_ishida/xdoc2txt.html#download
  - pdf, word, excel 등 각종 바이너리 문서로부터의 텍스트 추출 툴
  - 사용해 본 적이 없어서 모르겠다.

No comments:

Post a Comment