Mac
solr
kuromoji
形態素解析

solrで日本語形態素解析結果を調べる(Mac版)

Macでsolr導入から日本語形態素解析結果のテストをするまでの手順メモです。

前提

OS Mac OS 10.13.3
Java 1.8.0_151-b12

手順

  • Solr サイトからダウンロード

  • zip ファイルの解凍

  • 下記コマンドでサーバーの起動・コア作成

$ cd solr-7.2.1
$ bin/solr start
$ bin/solr create -c mycore
  • ブラウザから管理画面起動

  • Core selector で mycore 選択

solr1.png

  • 左のメニューから「analysis」選択

solr2.png

  • 「Fieldname / Field type」で「text_ja」を選択

スクリーンショット 2018-03-13 12.26.04.png

  • Filed Value(Query)に質問文を入力し、「Analysis Values」ボタンをクリック (一番上の「JT」(JapaneseTokenizer)の結果) スクリーンショット 2018-03-13 12.29.19.png

(一番下の「LCF」(LowerCaseFilter)の結果)
スクリーンショット 2018-03-13 12.29.41.png

補足

デフォルトで自動生成される構成ファイル(solr-7.2.1/server/solr/mycore/conf/managed-schema)の「text_ja」部分

  <fieldType name="text_ja" class="solr.TextField" autoGeneratePhraseQueries="false" positionIncrementGap="100">
    <analyzer>
      <tokenizer class="solr.JapaneseTokenizerFactory" mode="search"/>
      <filter class="solr.JapaneseBaseFormFilterFactory"/>
      <filter class="solr.JapanesePartOfSpeechStopFilterFactory" tags="lang/stoptags_ja.txt"/>
      <filter class="solr.CJKWidthFilterFactory"/>
      <filter class="solr.StopFilterFactory" words="lang/stopwords_ja.txt" ignoreCase="true"/>
      <filter class="solr.JapaneseKatakanaStemFilterFactory" minimumLength="4"/>
      <filter class="solr.LowerCaseFilterFactory"/>
    </analyzer>
  </fieldType>

関連リンク Mac で Elasticsearch 6