メモ2ブログ

メモtoウェブログ。旧ブログはこちら。 http://sakebook.blogspot.jp/

AndroidでKuromojiを使う

Kuromoji

KuromojiはJavaで書かれているオープンソースの日本語形態素解析エンジンです。

Androidでオフラインでも即座に形態素解析ができるように組み込んでみました。

LuceneのJapaneseTokenizerではなく、AtilikaのKuromojiを組み込みました。

はじめに言っておくと、組み込めたものはAtilikaのKuromoji-1.0-SNAPSHOTで、ipadicの辞書を利用したものです。

開発環境はKotlinです。

Atilika

0.7.7

公式で紹介されてる 0.7.7を試してみました。

MavenCentralに上がっていないので、リポジトリを追加します。

  • build.gradle
allprojects {
    repositories {
        jcenter()
        maven {
            url "http://www.atilika.org/nexus/content/repositories/atilika"
        }
    }
}

必要なライブラリをGradleのDependenciesに追加します。

  • app/build.gradle
    compile "org.atilika.kuromoji:kuromoji:0.7.7"

必要なコードを記述してビルドします。

    val tokenizer = Tokenizer.builder().build()
    val tokens = tokenizer.tokenize("我輩は猫である。名前はまだない。");
        tokens.forEach {
            Log.d("Kuromoji", "${it.allFeatures}")
        }

実行はできたのですが、空白文字以外形態素解析が機能していませんでいた。 特定したわけではないですが、おそらく辞書の読み込みに失敗しているようです。

0.9.0

調べたら、MavenCentral0.9.0が公開されてたので、そちらを使ってみました。

必要なライブラリをGradleのDependenciesに追加します。パッケージ名が異なるので注意してください。

  • app/build.gradle
    compile "com.atilika.kuromoji:kuromoji-ipadic:0.9.0"

必要なコードを記述してビルドします。
先ほどとは異なり、Builderが大文字になっています。Tokenizerのimport文ももちろん異なります。

    val tokenizer = Tokenizer.Builder().mode(TokenizerBase.Mode.NORMAL).build()
    val tokens = tokenizer.tokenize("我輩は猫である。名前はまだない。");
        tokens.forEach {
            Log.d("Kuromoji", "${it.allFeatures}")
        }

次のエラーがでました。

Caused by: java.lang.RuntimeException: Could not load dictionaries.
      at com.atilika.kuromoji.ipadic.Tokenizer$Builder.loadDictionaries(Tokenizer.java:231)
      at com.atilika.kuromoji.TokenizerBase.configure(TokenizerBase.java:77)
      at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:74)
      at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:59)
      at com.atilika.kuromoji.ipadic.Tokenizer$Builder.build(Tokenizer.java:203)
Caused by: java.lang.IllegalArgumentException: capacity < 0: -4
      at java.nio.ByteBuffer.allocate(ByteBuffer.java:54)
      at com.atilika.kuromoji.io.IntegerArrayIO.readArray(IntegerArrayIO.java:38)
      at com.atilika.kuromoji.buffer.WordIdMap.<init>(WordIdMap.java:35)
      at com.atilika.kuromoji.dict.TokenInfoDictionary.setup(TokenInfoDictionary.java:168)
      at com.atilika.kuromoji.dict.TokenInfoDictionary.newInstance(TokenInfoDictionary.java:160)
      at com.atilika.kuromoji.ipadic.Tokenizer$Builder.loadDictionaries(Tokenizer.java:219)
      at com.atilika.kuromoji.TokenizerBase.configure(TokenizerBase.java:77) 
      at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:74) 
      at com.atilika.kuromoji.ipadic.Tokenizer.<init>(Tokenizer.java:65)

辞書の読み込みに失敗しているようです。 実際に問題となっているのは次のメソッドのようです。

  • IntegerArrayIO#readArray
    public static int[] readArray(InputStream input) throws IOException {
        DataInputStream dataInput = new DataInputStream(input);
        int length = dataInput.readInt();

        ByteBuffer tmpBuffer = ByteBuffer.allocate(length * INT_BYTES);
        ReadableByteChannel channel = Channels.newChannel(dataInput);
        channel.read(tmpBuffer);

        tmpBuffer.rewind();
        IntBuffer intBuffer = tmpBuffer.asIntBuffer();

        int[] array = new int[length];
        intBuffer.get(array);

        return array;
    }

このIssueで、フォークして解決したとあります。

しかし、別のIssueによると解決してMasterにマージされているようなので、Masterからビルドして必要なjarを生成してみます。

1.0-SNAPSHOT

試した時点でのコミットは9ce40b605990f38854a4b08c38dc08a85cc3bb8bです。

ソースを取り込んでjarを生成します。

$git clone git@github.com:atilika/kuromoji.git
$cd kuromoji
$mvn clean package

私の環境だと次のエラーがでました。

1.7 は無効な VM バージョンです。

JAVA_HOMEの設定が正しくないようだったので、設定します。

時間がかかりますが、無事生成できました。

  • kuromoji/kuromoji-core/target/kuromoji-core-1.0-SNAPSHOT.jar
  • kuromoji/kuromoji-ipadic/target/kuromoji-ipadic-1.0-SNAPSHOT.jar

を自分の形態素解析を行いたいプロジェクトのlibsに配置します。

必要なライブラリをGradleのDependenciesに追加します。

  • app/build.gradle
    compile fileTree(dir: 'libs', include: ['*.jar'])
    compile files("libs/kuromoji-core-1.0-SNAPSHOT.jar")
    compile files("libs/kuromoji-ipadic-1.0-SNAPSHOT.jar")

必要なコードを記述します

    val tokenizer = Tokenizer.Builder().mode(TokenizerBase.Mode.NORMAL).build()
    val tokens = tokenizer.tokenize("我輩は猫である。名前はまだない。");
        tokens.forEach {
            Log.d("Kuromoji", "${it.allFeatures}")
        }

無事形態素解析した結果が得られました!

D/Kuromoji: 名詞,一般,*,*,*,*,我輩,ワガハイ,ワガハイ
D/Kuromoji: 助詞,係助詞,*,*,*,*,は,ハ,ワ
D/Kuromoji: 名詞,一般,*,*,*,*,猫,ネコ,ネコ
D/Kuromoji: 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
D/Kuromoji: 助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
D/Kuromoji: 記号,句点,*,*,*,*,。,。,。
D/Kuromoji: 名詞,一般,*,*,*,*,名前,ナマエ,ナマエ
D/Kuromoji: 助詞,係助詞,*,*,*,*,は,ハ,ワ
D/Kuromoji: 副詞,助詞類接続,*,*,*,*,まだ,マダ,マダ
D/Kuromoji: 形容詞,自立,*,*,形容詞・アウオ段,基本形,ない,ナイ,ナイ
D/Kuromoji: 記号,句点,*,*,*,*,。,。,。

f:id:sakebook:20160513035313g:plain

まとめ

Android特有の問題もあってか、少し手間取りましたが、辞書が内包されているものは少し試すには便利です。

しかし、生成したjarが11MBもあったり、辞書展開時にOOBを引き起こしたりするので、特定の環境で専用に使う場合は良いと思いました。

それ以外の環境では、辞書のアップデートもされないし迅速なレスポンスを求めないのであればWEB API形態素解析を行うのがAndroidだと現実的だと思いました。

検証したサンプルです。

github.com

参考

kuromoji / atilika

LuceneのAnalyzer、KuromojiのModeごとの挙動を確認する / CLOVER

Kuromoji IPADIC / MVN REPOSITORY

Kuromoji on Android / GitHub

Android runtime exception when creating new Tokenizer using kuromoji-ipadic / GitHub

MacOS X でJava開発のトラブル / Qiita

Androidでラムダ式を使いたい / Qiita