Search result of “user:y_itoh”

@y_itoh(yumi ito)

2021/07/25

1. Pythonで学ぶ統計学　2-4. 統計用語の基本

統計学の用語には文字面の似通ったものが多く紛らわしいので、ここで改めて、特に平均と分散に関する主な用語についてまとめます基本的な統計量種別用語対象記号・表記略意平均 ➀平均値資料...

3

4

Comment0

@y_itoh(yumi ito)

2021/07/19

1. Pythonで学ぶ統計学　2-3. 正規分布の基本

統計学で一番よく利用される連続型確率分布**「正規分布」**の基本的な事項をまとめます 1. 正規分布の公式 $$f(x) = \frac{1}{\sqrt{2\pi \sigma}} \exp...

14

30

Comment0

@y_itoh(yumi ito)

2021/01/10

4. Pythonで考えるベイズ統計　1-1. ナイーブベイズによる感情判定［ベイズの定理］

ここしばらく感情分析を扱ってきましたが、いずれも「感情値辞書」にもとづく方法でした。一方、機械学習をつかった感情値判定も盛んに行われています。その中でも論理が単純明快で、かつ実用性も認められて...

9

5

Comment0

@y_itoh(yumi ito)

2021/01/02

3. Pythonによる自然言語処理　5-4. 日本語文の感情値分析［日本語評価極性辞書（名詞編）］

日本語の感情値辞書に関する試行の第2弾となります。前回の「単語感情極性値対応表」に引き続き、本稿では**「日本語評価極性辞書（名詞編）」**を利用させて頂くこととして、そのパフォーマンスを確認...

9

10

Comment0

@y_itoh(yumi ito)

2021/01/01

3. Pythonによる自然言語処理　5-3. 日本語文の感情値分析［単語感情極性値対応表］

感情分析でネガポジの極性値を取得する元となる感情値辞書は、日本語では次の３つが挙げられます。単語感情極性値対応表日本語評価極性辞書 Polar Phrase Dictionary 本記事では...

43

51

Comment3

@y_itoh(yumi ito)

2021/01/04

3. Pythonによる自然言語処理　5-5. 日本語文の感情値分析［日本語評価極性辞書（用言編）］

日本語の感情値辞書に関する試行の第 3 弾となります。前回の「日本語評価極性辞書（名詞編）」につづいて、本稿では**「日本語評価極性辞書（用言編）」**を利用させて頂くのですが、用言とは活用す...

4

Comment0

@y_itoh(yumi ito)

2020/12/28

3. Pythonによる自然言語処理　5-2. 感情強度分析ツール VADER

英語を対象とした感情値分析ツールですが、 VADER（Valence Aware Dictionary and sEntiment Reasoner）は、ソーシャルメディアに適用できるようにカス...

10

11

Comment0

@y_itoh(yumi ito)

2020/12/26

3. Pythonによる自然言語処理　5-1. 感情分析の考え方［AFINN-111］

ある文書を一括りにして性格づけする手法があります。文書を構成している単語に付与された属性をもとに、好き・嫌い、肯定的・否定的などの判定をするものです。それには元となる辞書が必要になりますが、英...

2

3

Comment0

@y_itoh(yumi ito)

2020/12/21

3. Pythonによる自然言語処理　3-3. TF-IDFでふり返るコロナの一年

新型コロナウイルス関連のニュース記事を対象として、TF-IDF分析によりこの一年をふり返ります。 ⑴ ドキュメントの作成 1. データソースデータのリソースとして多言語情報発信サイト「nipp...

5

8

Comment0

@y_itoh(yumi ito)

2020/12/24

3. Pythonによる自然言語処理　4-1. KWICによる語用の分析

KWIC (keyword in context) は、あるキーワードが出てくる場所を取得するものですが、その前後の文脈を併せて取得してくれるという利点があります。つまり、そのキーワードがどの...

4

3

Comment0

@y_itoh(yumi ito)

2020/12/19

3. Pythonによる自然言語処理　3-4. TF-IDFでふり返るコロナの一年［データ作成］

Qiita Advent Calendar 2020 「自然言語処理」22日目の「TF-IDFでふり返るコロナの一年」で用いたデータの作成手順をまとめます。 ⑴スクレイピング、⑵クレンジング、⑶...

2

6

Comment0

@y_itoh(yumi ito)

2020/11/22

3. Pythonによる自然言語処理　3-1. 重要語抽出ツール TF-IDF分析［原定義］

自然言語処理を行うとき、具体的な狙いの一つとして「ある文章を特徴づけるような重要語を抽出したい」ということがあります。単語を抽出するとき、まずはテキスト内で出現回数の多い単語を拾います。出現頻...

11

Comment0

@y_itoh(yumi ito)

2020/11/28

3. Pythonによる自然言語処理　3-2. TF-IDF分析［小説にみる特徴語の検出］

TF-IDFによるモデルを考えるとき、ドキュメントの単位をどのように設計するかが大切です。なぜなら、あるドキュメントを特徴づけるのは他のドキュメントとの異同であり、言い換えれば、複数のドキュメ...

7

9

Comment0

@y_itoh(yumi ito)

2020/08/17

1. Pythonで学ぶ統計学　2. 確率分布[scipy.stats徹底理解]

データから計算される確率分布のことを**「経験分布」**といいます。これに対して、**確率分布を生成してくれる関数は「理論分布」**といいます。まず、**分布の形（確率分布の種類）を決める、そ...

157

151

Comment0

@y_itoh(yumi ito)

2020/11/15

1. Pythonで学ぶ統計学　2-1. 確率分布［離散型変数］

離散型の確率変数は、サイコロの目のように飛び飛びの値をとる変数のことで、例えば｢1｣の次は｢2｣、｢2｣の次は｢3｣というように、その間に 1.1, 1.2, 1.3, ･･･, 1.8, 1....

9

16

Comment0

@y_itoh(yumi ito)

2020/10/06

3. Pythonによる自然言語処理　2-2. 共起ネットワーク［mecab-ipadic-NEologd］

mecab-ipadic-NEologdは、MeCab標準の辞書を補完するかたちでカスタマイズされた辞書です。 Web 上の多数の言語資源から語句が追加されたもので、新語や複合語、慣用的な表現な...

11

15

Comment0

@y_itoh(yumi ito)

2020/09/22

3. Pythonによる自然言語処理　2-1. 共起ネットワーク

**単語N-gram**は、隣り合った単語の組をデータの単位とします。2-gram（2単語）であれば次のとおりです。共起（co-location：コロケーション）は、対象とする単位（文）の中で...

70

71

Comment0

@y_itoh(yumi ito)

2020/09/17

3. Pythonによる自然言語処理　1-2. コーパスの作成方法 : 青空文庫

自然言語処理の試行につけてはコーパス（まとまった量のテキスト）が必要になります。しばしば利用させていただく『青空文庫』は、近代文学など著作権が切れた作品のテキストを公開しているインターネット上...

21

20

Comment0

@y_itoh(yumi ito)

2020/09/15

3. Pythonによる自然言語処理　1-1. 単語N-gram

自然言語処理には２つの手法があります。統計情報から単語を表現する手法を「カウントベース」といい、ニューラルネットワークによる手法を「推論ベース」といいます。カウントベースの手法として、文字や...

20

Comment0

@y_itoh(yumi ito)

2020/09/13

2. Pythonで綴る多変量解析　8-3. k近傍法 [交差検証]

k近傍法における２種類の重み関数uniformとdistanceの違いについて、前回は視覚的にとらえました。各点を距離の逆数で重みづけするdistanceは過学習を引き起こしやすく、全点を等し...

0

2

Comment0

Search article