1. Pythonで学ぶ統計学 2-4. 統計用語の基本
統計学の用語には文字面の似通ったものが多く紛らわしいので、ここで改めて、特に平均と分散に関する主な用語についてまとめます 基本的な統計量 種別 用語 対象 記号・表記 略意 平均 ➀平均値 資料...
43 search resultsShowing 1~20 results
統計学の用語には文字面の似通ったものが多く紛らわしいので、ここで改めて、特に平均と分散に関する主な用語についてまとめます 基本的な統計量 種別 用語 対象 記号・表記 略意 平均 ➀平均値 資料...
統計学で一番よく利用される連続型確率分布**「正規分布」**の基本的な事項をまとめます 1. 正規分布の公式 $$f(x) = \frac{1}{\sqrt{2\pi \sigma}} \exp...
ここしばらく感情分析を扱ってきましたが、いずれも「感情値辞書」にもとづく方法でした。一方、機械学習をつかった感情値判定も盛んに行われています。 その中でも論理が単純明快で、かつ実用性も認められて...
日本語の感情値辞書に関する試行の第2弾となります。 前回の「単語感情極性値対応表」に引き続き、本稿では**「日本語評価極性辞書(名詞編)」**を利用させて頂くこととして、そのパフォーマンスを確認...
感情分析でネガポジの極性値を取得する元となる感情値辞書は、日本語では次の3つが挙げられます。 単語感情極性値対応表 日本語評価極性辞書 Polar Phrase Dictionary 本記事では...
日本語の感情値辞書に関する試行の第 3 弾となります。 前回の「日本語評価極性辞書(名詞編)」につづいて、本稿では**「日本語評価極性辞書(用言編)」**を利用させて頂くのですが、用言とは活用す...
英語を対象とした感情値分析ツールですが、 VADER(Valence Aware Dictionary and sEntiment Reasoner)は、ソーシャルメディアに適用できるようにカス...
ある文書を一括りにして性格づけする手法があります。文書を構成している単語に付与された属性をもとに、好き・嫌い、肯定的・否定的などの判定をするものです。 それには元となる辞書が必要になりますが、英...
新型コロナウイルス関連のニュース記事を対象として、TF-IDF分析によりこの一年をふり返ります。 ⑴ ドキュメントの作成 1. データソース データのリソースとして多言語情報発信サイト「nipp...
KWIC (keyword in context) は、あるキーワードが出てくる場所を取得するものですが、その前後の文脈を併せて取得してくれるという利点があります。 つまり、そのキーワードがどの...
Qiita Advent Calendar 2020 「自然言語処理」22日目の「TF-IDFでふり返るコロナの一年」で用いたデータの作成手順をまとめます。 ⑴スクレイピング、⑵クレンジング、⑶...
自然言語処理を行うとき、具体的な狙いの一つとして「ある文章を特徴づけるような重要語を抽出したい」ということがあります。 単語を抽出するとき、まずはテキスト内で出現回数の多い単語を拾います。出現頻...
TF-IDFによるモデルを考えるとき、ドキュメントの単位をどのように設計するかが大切です。 なぜなら、あるドキュメントを特徴づけるのは他のドキュメントとの異同であり、言い換えれば、複数のドキュメ...
データから計算される確率分布のことを**「経験分布」**といいます。これに対して、**確率分布を生成してくれる関数は「理論分布」**といいます。 まず、**分布の形(確率分布の種類)を決める、そ...
離散型の確率変数は、サイコロの目のように飛び飛びの値をとる変数のことで、例えば「1」の次は「2」、「2」の次は「3」というように、その間に 1.1, 1.2, 1.3, ・・・, 1.8, 1....
mecab-ipadic-NEologdは、MeCab標準の辞書を補完するかたちでカスタマイズされた辞書です。 Web 上の多数の言語資源から語句が追加されたもので、新語や複合語、慣用的な表現な...
**単語N-gram**は、隣り合った単語の組をデータの単位とします。2-gram(2単語)であれば次のとおりです。 共起(co-location:コロケーション)は、対象とする単位(文)の中で...
自然言語処理の試行につけてはコーパス(まとまった量のテキスト)が必要になります。 しばしば利用させていただく『青空文庫』は、近代文学など著作権が切れた作品のテキストを公開しているインターネット上...
自然言語処理には2つの手法があります。 統計情報から単語を表現する手法を「カウントベース」といい、ニューラルネットワークによる手法を「推論ベース」といいます。 カウントベースの手法として、文字や...
k近傍法における2種類の重み関数uniformとdistanceの違いについて、前回は視覚的にとらえました。 各点を距離の逆数で重みづけするdistanceは過学習を引き起こしやすく、全点を等し...
43 search resultsShowing 1~20 results
Qiita is a knowledge sharing service for engineers.