AndroidでKuromojiを使う - メモ2ブログ

Kuromoji

KuromojiはJavaで書かれているオープンソースの日本語形態素解析エンジンです。

Androidでオフラインでも即座に形態素解析ができるように組み込んでみました。

LuceneのJapaneseTokenizerではなく、AtilikaのKuromojiを組み込みました。

はじめに言っておくと、組み込めたものはAtilikaのKuromoji-1.0-SNAPSHOTで、ipadicの辞書を利用したものです。

開発環境はKotlinです。

Atilika

0.7.7

公式で紹介されてる 0.7.7を試してみました。

MavenCentralに上がっていないので、リポジトリを追加します。

build.gradle

allprojects {
    repositories {
        jcenter()
        maven {
            url "http://www.atilika.org/nexus/content/repositories/atilika"
        }
    }
}

必要なライブラリをGradleのDependenciesに追加します。

app/build.gradle

    compile "org.atilika.kuromoji:kuromoji:0.7.7"

必要なコードを記述してビルドします。

    val tokenizer = Tokenizer.builder().build()
    val tokens = tokenizer.tokenize("我輩は猫である。名前はまだない。");
        tokens.forEach {
            Log.d("Kuromoji", "${it.allFeatures}")
        }

実行はできたのですが、空白文字以外形態素解析が機能していませんでいた。特定したわけではないですが、おそらく辞書の読み込みに失敗しているようです。

0.9.0

調べたら、MavenCentralに0.9.0が公開されてたので、そちらを使ってみました。

必要なライブラリをGradleのDependenciesに追加します。パッケージ名が異なるので注意してください。

app/build.gradle

    compile "com.atilika.kuromoji:kuromoji-ipadic:0.9.0"

必要なコードを記述してビルドします。
先ほどとは異なり、Builderが大文字になっています。Tokenizerのimport文ももちろん異なります。

    val tokenizer = Tokenizer.Builder().mode(TokenizerBase.Mode.NORMAL).build()
    val tokens = tokenizer.tokenize("我輩は猫である。名前はまだない。");
        tokens.forEach {
            Log.d("Kuromoji", "${it.allFeatures}")
        }

次のエラーがでました。

Caused by: java.lang.RuntimeException: Could not load dictionaries.
      at com.atilika.kuromoji.ipadic.Tokenizer$Builder.loadDictionaries(Tokenizer.java:231)
      at com.atilika.kuromoji.TokenizerBase.configure(TokenizerBase.java:77)
      at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:74)
      at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:59)
      at com.atilika.kuromoji.ipadic.Tokenizer$Builder.build(Tokenizer.java:203)
Caused by: java.lang.IllegalArgumentException: capacity < 0: -4
      at java.nio.ByteBuffer.allocate(ByteBuffer.java:54)
      at com.atilika.kuromoji.io.IntegerArrayIO.readArray(IntegerArrayIO.java:38)
      at com.atilika.kuromoji.buffer.WordIdMap.<init>(WordIdMap.java:35)
      at com.atilika.kuromoji.dict.TokenInfoDictionary.setup(TokenInfoDictionary.java:168)
      at com.atilika.kuromoji.dict.TokenInfoDictionary.newInstance(TokenInfoDictionary.java:160)
      at com.atilika.kuromoji.ipadic.Tokenizer$Builder.loadDictionaries(Tokenizer.java:219)
      at com.atilika.kuromoji.TokenizerBase.configure(TokenizerBase.java:77) 
      at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:74) 
      at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:65)

辞書の読み込みに失敗しているようです。実際に問題となっているのは次のメソッドのようです。

IntegerArrayIO#readArray

    public static int[] readArray(InputStream input) throws IOException {
        DataInputStream dataInput = new DataInputStream(input);
        int length = dataInput.readInt();

        ByteBuffer tmpBuffer = ByteBuffer.allocate(length * INT_BYTES);
        ReadableByteChannel channel = Channels.newChannel(dataInput);
        channel.read(tmpBuffer);

        tmpBuffer.rewind();
        IntBuffer intBuffer = tmpBuffer.asIntBuffer();

        int[] array = new int[length];
        intBuffer.get(array);

        return array;
    }

このIssueで、フォークして解決したとあります。

しかし、別のIssueによると解決してMasterにマージされているようなので、Masterからビルドして必要なjarを生成してみます。

1.0-SNAPSHOT

試した時点でのコミットは9ce40b605990f38854a4b08c38dc08a85cc3bb8bです。

ソースを取り込んでjarを生成します。

$git clone git@github.com:atilika/kuromoji.git
$cd kuromoji
$mvn clean package

私の環境だと次のエラーがでました。

1.7 は無効な VM バージョンです。

JAVA_HOMEの設定が正しくないようだったので、設定します。

時間がかかりますが、無事生成できました。

kuromoji/kuromoji-core/target/kuromoji-core-1.0-SNAPSHOT.jar
kuromoji/kuromoji-ipadic/target/kuromoji-ipadic-1.0-SNAPSHOT.jar

を自分の形態素解析を行いたいプロジェクトのlibsに配置します。

必要なライブラリをGradleのDependenciesに追加します。

app/build.gradle

    compile fileTree(dir: 'libs', include: ['*.jar'])
    compile files("libs/kuromoji-core-1.0-SNAPSHOT.jar")
    compile files("libs/kuromoji-ipadic-1.0-SNAPSHOT.jar")

必要なコードを記述します

    val tokenizer = Tokenizer.Builder().mode(TokenizerBase.Mode.NORMAL).build()
    val tokens = tokenizer.tokenize("我輩は猫である。名前はまだない。");
        tokens.forEach {
            Log.d("Kuromoji", "${it.allFeatures}")
        }

無事形態素解析した結果が得られました！

D/Kuromoji: 名詞,一般,*,*,*,*,我輩,ワガハイ,ワガハイ
D/Kuromoji: 助詞,係助詞,*,*,*,*,は,ハ,ワ
D/Kuromoji: 名詞,一般,*,*,*,*,猫,ネコ,ネコ
D/Kuromoji: 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
D/Kuromoji: 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
D/Kuromoji: 記号,句点,*,*,*,*,。,。,。
D/Kuromoji: 名詞,一般,*,*,*,*,名前,ナマエ,ナマエ
D/Kuromoji: 助詞,係助詞,*,*,*,*,は,ハ,ワ
D/Kuromoji: 副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ
D/Kuromoji: 形容詞,自立,*,*,形容詞・アウオ段,基本形,ない,ナイ,ナイ
D/Kuromoji: 記号,句点,*,*,*,*,。,。,。

f:id:sakebook:20160513035313g:plain