LoginSignup
8
5

More than 3 years have passed since last update.

mecab(NEologd辞書)環境をDocker(ubuntu)で構築

Last updated at Posted at 2020-11-04

記事の内容は古くなっていると思います。
最新の状態はGitHubで確認してください。

最近、スクレイピングでデータを取得したり、mecabで形態素解析を行ったり、様々な分析を行ったりしております。

最近の記事
青空文庫の書籍をDoc2Vecでクラスタリング
文春オンラインの記事をスクレイピング&ネガポジ分析

その際どんな環境で分析を行っているかというと、全てDocker環境で行っています。
今回は私が使っているDockerfileを公開いたします。

ベース:ubuntu
入っているもの:anaconda,mecab,NEologd,gensim,janome,BeautifulSoupなど
工夫した点:NEologdをデフォルト辞書に設定したこと。こうすることでmecabを起動する度にNEologd辞書を指定する必要がない。

参考
かめさんのudemy Docker講座・・・私のDockerの基礎知識となっています。超お勧め講座。
NEologdのGitHubページ・・・デフォルトの辞書より固有名詞に強いです。
MeCabのデフォルト辞書を変更する【Mac】・・・mecabのデフォルト辞書を指定する際に参考にしました。

FROM ubuntu:latest

RUN apt-get update && apt-get install -y \
  sudo \
  wget \
  vim \
  mecab \
  libmecab-dev \
  mecab-ipadic-utf8 \
  git \
  make \
  curl \
  xz-utils \
  file

WORKDIR /opt

RUN wget https://repo.anaconda.com/archive/Anaconda3-2020.07-Linux-x86_64.sh && \
  sh Anaconda3-2020.07-Linux-x86_64.sh -b -p /opt/anaconda3 && \
  rm -f Anaconda3-2020.07-Linux-x86_64.sh
ENV PATH /opt/anaconda3/bin:$PATH

RUN git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git ; exit 0
RUN cd mecab-ipadic-neologd && \
  ./bin/install-mecab-ipadic-neologd -n -y && \
  echo "dicdir=/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd">/etc/mecabrc
RUN conda update -n base -c defaults conda

RUN pip install --upgrade pip && \
  pip install mecab-python3 \
  Janome \
  jaconv \
  tinysegmenter==0.3 \
  gensim \
  unidic-lite \
  japanize-matplotlib

RUN conda install -c conda-forge \
  newspaper3k && \
  conda install beautifulsoup4 \
  lxml \
  html5lib \
  requests

WORKDIR /work

CMD ["jupyter", "lab", "--ip=0.0.0.0", "--allow-root"]

記事の内容は古くなっていると思います。
最新の状態はGitHubで確認してください。

8
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
5