用語集
データサイエンス

データサイエンス用語集

データサイエンスの勉強にあたって出てきた用語を随時更新する。

用語 意味
RTB
(Real Time Bidding)
CI
(Continuous Integration)
継続的にプログラムをテストしたり、プログラムを実行可能な形式に変換したりすることで、効率的な開発を実現します。JenkinsやTravisCI、CircleCIなどがよく使われます。
R
Rは無料で使えるデータ分析に特化したプログラミング言語です。ほかの汎用プログラミング言語では大量に書かなければならない処理をわずか数行で記述できます。また、データ分析で頻出する配列・行列の計算や可視化のためのグラフ作成機能が標準で提供されています。さまざまな分析手法を試すためのサンプルデータも標準で提供されているのも特徴です。
Anaconda
Anacondaとは数値計算、科学計算、機械学習などで用いられるライブラリを一度のインストール作業ですべて完了できる実行環境の1つです。
Jupyter
Webブラウザ上でデータ分析できる実行環境
オートスケール
クラウドでアプリが動いているサーバにリクエストが集中した時に同じ環境を別のサーバに立ててリクエストを振り分ける機能。この機能によってサーバ運用者の負担を減らすと共に、柔軟にクラウド利用料をリクエストに応じて課金できる。
Fluentd
TreasureDataInc.が中心となって開発されたオープンソースのリアルタイムログ収集ツール。Rubyで記述されている。複数台で動くWebアプリケーションのログやHTTPなどの通信ログを別のサーバに集約するときに利用されることが多い
Hadoop
テキスト、画像、ログなどの構造化されていないデータを、高速に処理出来るオープンソースのプラットフォームのこと。
JSON
表形式では表現が困難な構造のデータを、人間に対するある程度の可読性を残しつつ、コンピュータに対しても伝達できるような記法。https://dev.classmethod.jp/etc/concrete-example-of-json/。
MongoDB
データをJSON形式で保存するNoSQL。JSONを機械が高速に読み込めるBSONという形式に変換し、データをコレクションという単位で保存
NoSQL(Not only SQL)
RDBMS以外のデータ保存ツールを指す
Numpy
科学計算のための基本的なパッケージ
Pandas
Pythonでデータ処理をするために作られた超高機能なライブラリ
IPython
Pythonを対話的に実行するためのシェル。Jupyterという名前に変わった。
シェル
https://qiita.com/ycoda/items/87d23b818cb06ba1c348
リテラル
ソースコードの中に直接べた書きした文字とか数字
線形回帰
(linear regression)
回帰分析の一種で、複数の変数における相関関係を直線モデルによって説明しようとする分析手法http://blogs.teradata.com/international/ja/hhg9/
回帰分析
(regression analysis)
結果となる数値と要因となる数値の関係を調べて、それぞれの関係を明らかにする統計的手法。このとき、要因となる数値を「説明変数」、結果となる数値を「被説明変数」といい、「説明変数」が1つの場合を「単回帰分析」、複数の場合を「重回帰分析」という。
教師あり学習
(Supervised learning)
教師なし学習
(Unsupervised learning)
強化学習
(Reinforcement lerning)
https://qiita.com/ycoda/items/87d23b818cb06ba1c348
離散値
(discrete value)
連続していない(非連続な)状態である値。サイコロの目とか。
連続値
(Continuous value)
連続した状態である値。
仮定関数
(Hypothesis function)
Ŷ =hθ(X)=θ0+θ1(X)
目的関数,
(Cost Function)
グラフにプロットされた訓練セットの一つ一つの点に対する誤差(下図の点線部分)の総和を求める関数
二乗誤差関数
(Squared Error Function)
http://tkengo.github.io/blog/2016/01/04/yaruo-machine-learning2/
最急降下法
(Gradient Descent)
関数(ポテンシャル面)の傾き(一階微分)のみから、関数の最小値を探索する連続最適化問題の勾配法のアルゴリズムの一つ。
導関数
(derivertive)
その関数を微分して得る関数。
行列
(Matrix)
次元
(Dimension)
ベクター
(Vector)
N * 1の行列
スカラー
(Scalar)
大きさのみ持つ量
トイ・プロブレム
ルールとゴールが厳密に決まっている枠組みでの問題
マーヴィン・ミンスキー
コンピューター科学者、認知科学者。MITの人工知能研究所の創設者の1人。人工知能(AI)に留まらず哲学に関する著書でも知られ、「人工知能の父」と呼ばれた。1956年に開催されたいわゆる「ダートマス会議」の発起人のひとり。
データクレンジング
(data cleansing)
データベースに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行い、データの品質を高めること
データフレーム
Matplotlib
プログラミング言語Pythonおよびその科学計算用ライブラリNumPyのためのグラフ描画ライブラリ
ggplot
R言語のライブラリで、シンプルで美しいグラフを描くことができる. Pythonにもある.
フレーム問題
あるタスクを実行するのに、必要な知識を引っ張り出して使うことがロボには難しいという問題。

()

()

()

()

()

()

()

()

()

()

()

()