記事の内容は古くなっていると思います。
最新の状態はGitHubで確認してください。
最近、スクレイピングでデータを取得したり、mecabで形態素解析を行ったり、様々な分析を行ったりしております。
最近の記事
青空文庫の書籍をDoc2Vecでクラスタリング
文春オンラインの記事をスクレイピング&ネガポジ分析
その際どんな環境で分析を行っているかというと、全てDocker環境で行っています。
今回は私が使っているDockerfileを公開いたします。
ベース:ubuntu
入っているもの:anaconda
,mecab
,NEologd
,gensim
,janome
,BeautifulSoup
など
工夫した点:NEologdをデフォルト辞書に設定したこと。こうすることでmecabを起動する度にNEologd辞書を指定する必要がない。
参考
かめさんのudemy Docker講座・・・私のDockerの基礎知識となっています。超お勧め講座。
NEologdのGitHubページ・・・デフォルトの辞書より固有名詞に強いです。
MeCabのデフォルト辞書を変更する【Mac】・・・mecabのデフォルト辞書を指定する際に参考にしました。
FROM ubuntu:latest
RUN apt-get update && apt-get install -y \
sudo \
wget \
vim \
mecab \
libmecab-dev \
mecab-ipadic-utf8 \
git \
make \
curl \
xz-utils \
file
WORKDIR /opt
RUN wget https://repo.anaconda.com/archive/Anaconda3-2020.07-Linux-x86_64.sh && \
sh Anaconda3-2020.07-Linux-x86_64.sh -b -p /opt/anaconda3 && \
rm -f Anaconda3-2020.07-Linux-x86_64.sh
ENV PATH /opt/anaconda3/bin:$PATH
RUN git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git ; exit 0
RUN cd mecab-ipadic-neologd && \
./bin/install-mecab-ipadic-neologd -n -y && \
echo "dicdir=/usr/lib/x86_64-linux-gnu/mecab/dic/mecab-ipadic-neologd">/etc/mecabrc
RUN conda update -n base -c defaults conda
RUN pip install --upgrade pip && \
pip install mecab-python3 \
Janome \
jaconv \
tinysegmenter==0.3 \
gensim \
unidic-lite \
japanize-matplotlib
RUN conda install -c conda-forge \
newspaper3k && \
conda install beautifulsoup4 \
lxml \
html5lib \
requests
WORKDIR /work
CMD ["jupyter", "lab", "--ip=0.0.0.0", "--allow-root"]
記事の内容は古くなっていると思います。
最新の状態はGitHubで確認してください。