専門実践教育訓練給付金が受けられるプログラミングスクール・講座おすすめ5選
hiragi-books 柊の本屋さん
ChatGPTの登場でAIブームに火が着き、Pythonの勉強を始めた方も多いのではないでしょうか。
しかし勉強しようにも練習に適したデータセットがなかなか見つからない!
こんな問題を抱えていませんか?
この記事では練習に最適なPythonの『sklearn.datasets』に含まれているデータセットについて紹介します!
※後述のコードは基本無料の『Google Colaboratory』で記述することを想定しています。
参考:https://scikit-learn.org/stable/datasets/toy_dataset.html
このデータセットは分類分析に向いています。
※上図は見やすいように整形加工したものです。
※整形方法は後述のコードを参考にしてください。
インスタンスの数 | 150行(3クラス × 50) |
属性の数 | 4つの数値属性とクラス |
属性情報 | ・がく片の長さ(cm) ・がく片の幅(cm) ・花びらの長さ(cm) ・花びらの幅(cm) ・クラス(Setosa、Versicolour、Virginica) |
#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_iris
#変数datasetにデータセットの情報を格納
dataset = load_iris()
import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_iris #データセットを取得するのに必要
# データセット読み込み
dataset = load_iris()
#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
# 品種を表すtargetの列を追加
df['target'] = dataset.target
# 品種を判別する
def get_species_name(target):
species_names = dataset.target_names #target_namesで品種名を取得してspecies_nameに格納
return species_names[target]
# 品種の列を追加
df['species'] = df['target'].apply(get_species_name)
# DataFrameを出力
df
このデータセットは回帰分析に向いています。
インスタンスの数 | 442行 |
属性の数 | 最初の10列は予測値 |
対象(target) | 列11はベースラインから1年後の疾患進行の定量的尺度 |
属性情報 | ・年齢 ・性別 ・BMI:肥満指数 ・bp:平均血圧 ・s1 tc:血清総コレステロール ・s2 ldl:低密度リポタンパク質 ・s3 hdl:高密度リポタンパク質 ・s4 ch:総コレステロール / HDL ・s5 ltg:血清トリグリセリドレベルのログ ・s6 glu:血糖値 |
#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_diabetes
#変数datasetにデータセットの情報を格納
dataset = load_diabetes ()
import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_diabetes #データセットを取得するのに必要
# データセット読み込み
dataset = load_diabetes ()
#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
#targetの列を追加
df['target'] = dataset.target
# DataFrameを出力
df
このデータセットは分類分析に向いています。
インスタンスの数 | 1,797行 |
属性の数 | 64 |
属性情報 | 0~16の範囲の整数ピクセルの8×8イメージ |
#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_digits
#変数datasetにデータセットの情報を格納
dataset = load_digits()
import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_digits #データセットを取得するのに必要
# データセット読み込み
dataset = load_digits()
#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
#targetの列を追加
df['target'] = dataset.target
# DataFrameを出力
df
このデータセットは回帰分析に向いています。
インスタンスの数 | 20行 |
属性の数 | 3つ |
属性情報 | ・顎 ・腹筋 ・ジャンプ |
#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_linnerud
#変数datasetにデータセットの情報を格納
dataset = load_linnerud()
import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_linnerud #データセットを取得するのに必要
# データセット読み込み
dataset = load_linnerud()
#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
# DataFrameを出力
df
このデータセットは分類分析に向いています。
インスタンスの数 | 178行 |
属性の数 | 13個の数値予測属性 と クラス |
属性情報 | ・アルコール ・りんご酸 ・灰 ・灰のアルカリ度 ・マグネシウム ・総フェノール類 ・フラバノイド ・非フラバノイドフェノール ・プロアントシアニン ・色の濃さ ・色相 ・希釈ワインのOD280/OD315 ・プロリン ・クラス(クラス0、クラス1、クラス2) |
#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_wine
#変数datasetにデータセットの情報を格納
dataset = load_wine()
import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_wine #データセットを取得するのに必要
# データセット読み込み
dataset = load_wine()
#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
#targetの列を追加
df['target'] = dataset.target
# DataFrameを出力
df
このデータセットは分類分析に向いています。
インスタンスの数 | 569行 |
属性の数 | 30個の数値予測属性 と クラス |
属性情報 | ・半径 ・テクスチャ(グレースケール値の標準偏差) ・周囲 ・エリア ・滑らかさ(半径の長さの局所的な変動) ・コンパクトさ(周囲^2/面積 – 1.0) ・凹み(輪郭の凹み度合い) ・凹点(輪郭の凹部の数) ・対象 ・フラクタル次元(「海岸線近似」 -1) ・クラス(WDBC-悪性、WDBC-良性) |
#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_breast_cancer
#変数datasetにデータセットの情報を格納
dataset = load_breast_cancer()
import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_breast_cancer #データセットを取得するのに必要
# データセット読み込み
dataset = load_breast_cancer()
#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
#targetの列を追加
df['target'] = dataset.target
# DataFrameを出力
df
いろいろなデータセットに触れて実際に分析してみないと、なかなか理解できないものです。
せっかく良いデータセットが手に入るので、いろいろ試して理解を深めましょう。
理解が深まったら実戦形式で実装してみるとさらに理解が深まるので、下のような書籍で実力を測ってみてはいかがでしょうか?
本やネットの内容をコピペしてやった気になってしまう方にはオススメの書籍です。