2014年9月8日月曜日

groovyとApache OpenNLPで英語をトークン化する

groovyとApache OpenNLPで英語をトークン化するには、以下のコードの様にSimpleTokenizerを使用します。
import opennlp.tools.tokenize.*

def text = """The Apache OpenNLP library is a machine learning based toolkit for
the processing of natural language text."""

for(token in SimpleTokenizer.INSTANCE.tokenize(text)){
  println token
}

0 件のコメント:

コメントを投稿