AndroidでKuromojiを使う
Kuromoji
Androidでオフラインでも即座に形態素解析ができるように組み込んでみました。
LuceneのJapaneseTokenizerではなく、AtilikaのKuromojiを組み込みました。
はじめに言っておくと、組み込めたものはAtilikaのKuromoji-1.0-SNAPSHOTで、ipadicの辞書を利用したものです。
開発環境はKotlinです。
Atilika
0.7.7
公式で紹介されてる 0.7.7
を試してみました。
MavenCentralに上がっていないので、リポジトリを追加します。
- build.gradle
allprojects { repositories { jcenter() maven { url "http://www.atilika.org/nexus/content/repositories/atilika" } } }
必要なライブラリをGradleのDependenciesに追加します。
- app/build.gradle
compile "org.atilika.kuromoji:kuromoji:0.7.7"
必要なコードを記述してビルドします。
val tokenizer = Tokenizer.builder().build() val tokens = tokenizer.tokenize("我輩は猫である。名前はまだない。"); tokens.forEach { Log.d("Kuromoji", "${it.allFeatures}") }
実行はできたのですが、空白文字以外形態素解析が機能していませんでいた。 特定したわけではないですが、おそらく辞書の読み込みに失敗しているようです。
0.9.0
調べたら、MavenCentral
に0.9.0
が公開されてたので、そちらを使ってみました。
必要なライブラリをGradleのDependenciesに追加します。パッケージ名が異なるので注意してください。
- app/build.gradle
compile "com.atilika.kuromoji:kuromoji-ipadic:0.9.0"
必要なコードを記述してビルドします。
先ほどとは異なり、Builder
が大文字になっています。Tokenizer
のimport文ももちろん異なります。
val tokenizer = Tokenizer.Builder().mode(TokenizerBase.Mode.NORMAL).build() val tokens = tokenizer.tokenize("我輩は猫である。名前はまだない。"); tokens.forEach { Log.d("Kuromoji", "${it.allFeatures}") }
次のエラーがでました。
Caused by: java.lang.RuntimeException: Could not load dictionaries. at com.atilika.kuromoji.ipadic.Tokenizer$Builder.loadDictionaries(Tokenizer.java:231) at com.atilika.kuromoji.TokenizerBase.configure(TokenizerBase.java:77) at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:74) at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:59) at com.atilika.kuromoji.ipadic.Tokenizer$Builder.build(Tokenizer.java:203) Caused by: java.lang.IllegalArgumentException: capacity < 0: -4 at java.nio.ByteBuffer.allocate(ByteBuffer.java:54) at com.atilika.kuromoji.io.IntegerArrayIO.readArray(IntegerArrayIO.java:38) at com.atilika.kuromoji.buffer.WordIdMap.<init>(WordIdMap.java:35) at com.atilika.kuromoji.dict.TokenInfoDictionary.setup(TokenInfoDictionary.java:168) at com.atilika.kuromoji.dict.TokenInfoDictionary.newInstance(TokenInfoDictionary.java:160) at com.atilika.kuromoji.ipadic.Tokenizer$Builder.loadDictionaries(Tokenizer.java:219) at com.atilika.kuromoji.TokenizerBase.configure(TokenizerBase.java:77) at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:74) at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:65)
辞書の読み込みに失敗しているようです。 実際に問題となっているのは次のメソッドのようです。
- IntegerArrayIO#readArray
public static int[] readArray(InputStream input) throws IOException { DataInputStream dataInput = new DataInputStream(input); int length = dataInput.readInt(); ByteBuffer tmpBuffer = ByteBuffer.allocate(length * INT_BYTES); ReadableByteChannel channel = Channels.newChannel(dataInput); channel.read(tmpBuffer); tmpBuffer.rewind(); IntBuffer intBuffer = tmpBuffer.asIntBuffer(); int[] array = new int[length]; intBuffer.get(array); return array; }
このIssueで、フォークして解決したとあります。
しかし、別のIssueによると解決してMasterにマージされているようなので、Masterからビルドして必要なjarを生成してみます。
1.0-SNAPSHOT
試した時点でのコミットは9ce40b605990f38854a4b08c38dc08a85cc3bb8bです。
ソースを取り込んでjarを生成します。
$git clone git@github.com:atilika/kuromoji.git $cd kuromoji $mvn clean package
私の環境だと次のエラーがでました。
1.7 は無効な VM バージョンです。
JAVA_HOME
の設定が正しくないようだったので、設定します。
時間がかかりますが、無事生成できました。
kuromoji/kuromoji-core/target/kuromoji-core-1.0-SNAPSHOT.jar
kuromoji/kuromoji-ipadic/target/kuromoji-ipadic-1.0-SNAPSHOT.jar
を自分の形態素解析を行いたいプロジェクトのlibs
に配置します。
必要なライブラリをGradleのDependenciesに追加します。
- app/build.gradle
compile fileTree(dir: 'libs', include: ['*.jar']) compile files("libs/kuromoji-core-1.0-SNAPSHOT.jar") compile files("libs/kuromoji-ipadic-1.0-SNAPSHOT.jar")
必要なコードを記述します
val tokenizer = Tokenizer.Builder().mode(TokenizerBase.Mode.NORMAL).build() val tokens = tokenizer.tokenize("我輩は猫である。名前はまだない。"); tokens.forEach { Log.d("Kuromoji", "${it.allFeatures}") }
無事形態素解析した結果が得られました!
D/Kuromoji: 名詞,一般,*,*,*,*,我輩,ワガハイ,ワガハイ D/Kuromoji: 助詞,係助詞,*,*,*,*,は,ハ,ワ D/Kuromoji: 名詞,一般,*,*,*,*,猫,ネコ,ネコ D/Kuromoji: 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ D/Kuromoji: 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル D/Kuromoji: 記号,句点,*,*,*,*,。,。,。 D/Kuromoji: 名詞,一般,*,*,*,*,名前,ナマエ,ナマエ D/Kuromoji: 助詞,係助詞,*,*,*,*,は,ハ,ワ D/Kuromoji: 副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ D/Kuromoji: 形容詞,自立,*,*,形容詞・アウオ段,基本形,ない,ナイ,ナイ D/Kuromoji: 記号,句点,*,*,*,*,。,。,。
まとめ
Android特有の問題もあってか、少し手間取りましたが、辞書が内包されているものは少し試すには便利です。
しかし、生成したjarが11MBもあったり、辞書展開時にOOBを引き起こしたりするので、特定の環境で専用に使う場合は良いと思いました。
それ以外の環境では、辞書のアップデートもされないし迅速なレスポンスを求めないのであればWEB APIで形態素解析を行うのがAndroidだと現実的だと思いました。
検証したサンプルです。
参考
LuceneのAnalyzer、KuromojiのModeごとの挙動を確認する / CLOVER
Kuromoji IPADIC / MVN REPOSITORY
Android runtime exception when creating new Tokenizer using kuromoji-ipadic / GitHub