Python: scikit-learn で決定木 (Decision Tree) を試してみる

Mac OS X NumPy Python SciPy scikit-learn 機械学習

今回は機械学習アルゴリズムの一つである決定木を scikit-learn で試してみることにする。決定木は、その名の通り木構造のモデルとなっていて、分類問題ないし回帰問題を解くのに使える。また、決定木自体はランダムフォレストのような、より高度なアルゴ…

Python: 相関行列を計算してヒートマップを描いてみる

Mac OS X Python matplotlib scikit-learn seaborn NumPy

以前、このブログで相関係数について解説した記事を書いたことがある。相関係数というのは、データセットのある次元とある次元の関連性を示すものだった。 blog.amedama.jp この相関係数を、データセットの各次元ごとに計算したものを相関行列と呼ぶ。デー…

Mac OS X Python 統計機械学習 scikit-learn

主成分分析 (PCA) は、主にデータ分析や統計の世界で使われる道具の一つ。データセットに含まれる次元が多いと、データ分析をするにせよ機械学習をするにせよ分かりにくさが増える。そんなとき、主成分分析を使えば取り扱う必要のある次元を圧縮 (削減) で…

機械学習 scikit-learn Python NumPy Mac OS X matplotlib

KMeans 法は、機械学習における教師なし学習のクラスタリングという問題を解くためのアルゴリズム。教師なし学習というのは、事前に教師データというヒントが与えられないことを指している。その上で、クラスタリングというのは未知のデータに対していくつ…

Mac OS X matplotlib scikit-learn 機械学習統計 Python

k 近傍法 (k-Nearest Neighbor algorithm) というのは、機械学習において教師あり学習で分類問題を解くためのアルゴリズム。教師あり学習における分類問題というのは、あらかじめ教師信号として特徴ベクトルと正解ラベルが与えられるものをいう。その教師…

機械学習 scikit-learn Python NumPy Mac OS X

データセットの標準化については、このブログでも何回か扱っている。しかし、実際にデータセットを標準化したときの例については試していなかった。 blog.amedama.jp blog.amedama.jp そこで、今回は UCI の提供する小麦 (seeds) データセットを最近傍法で…

統計 scikit-learn Python NumPy Mac OS X

今回は R と Python の両方を使って重回帰分析をしてみる。モチベーションとしては、できるだけ手に慣れた Python を使って分析をしていきたいという気持ちがある。ただ、計算結果が意図通りのものになっているのかを R の結果と見比べて確かめておきたい…

Python SciPy NumPy scikit-learn

今回は機械学習とか統計で扱うデータセットの標準化について。まずは、標準化されていない生のデータセットについて考えてみよう。それらの多くは、次元によって数値の単位がバラバラだったり、あるいは大きさが極端に異なったりする。これをそのまま扱っ…