Python
PR

【Python】学習におすすめなデータセットとインポート方法

hiragi-books
記事内に商品プロモーションを含む場合があります

 ChatGPTの登場でAIブームに火が着き、Pythonの勉強を始めた方も多いのではないでしょうか。

 しかし勉強しようにも練習に適したデータセットがなかなか見つからない!

 こんな問題を抱えていませんか?

 この記事では練習に最適なPythonの『sklearn.datasets』に含まれているデータセットについて紹介します!

より実践的な学習をしたいならこちらがおすすめ
楽天Kobo電子書籍ストア
¥2,376 (2025/03/27 04:50時点 | 楽天市場調べ)
楽天Kobo電子書籍ストア
¥2,376 (2025/03/27 04:50時点 | 楽天市場調べ)
楽天Kobo電子書籍ストア
¥2,376 (2025/04/02 18:04時点 | 楽天市場調べ)

※後述のコードは基本無料の『Google Colaboratory』で記述することを想定しています。

データセット

参考:https://scikit-learn.org/stable/datasets/toy_dataset.html

データセットの種類
  • アヤメ植物データセット(Iris plants dataset)
  • 糖尿病データセット(Diabetes dataset)
  • 手書きの数字データセット(Optical recognition of handwritten digits dataset)
  • 身体運動用データセット(Linnerrud dataset)
  • ワインデータセット(Wine recognition dataset)
  • 乳がんデータセット(Breast cancer wisconsin (diagnostic) dataset)

アヤメ植物データセット(Iris plants dataset)

 このデータセットは分類分析に向いています。

※上図は見やすいように整形加工したものです。

※整形方法は後述のコードを参考にしてください。

データセットの内容

インスタンスの数150行(3クラス × 50)
属性の数4つの数値属性とクラス
属性情報・がく片の長さ(cm)
・がく片の幅(cm)
・花びらの長さ(cm)
・花びらの幅(cm)
・クラス(Setosa、Versicolour、Virginica)

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_iris

#変数datasetにデータセットの情報を格納
dataset = load_iris()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_iris #データセットを取得するのに必要

# データセット読み込み
dataset = load_iris()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

# 品種を表すtargetの列を追加
df['target'] = dataset.target

# 品種を判別する
def get_species_name(target):
    species_names = dataset.target_names #target_namesで品種名を取得してspecies_nameに格納
    return species_names[target]

# 品種の列を追加
df['species'] = df['target'].apply(get_species_name)

# DataFrameを出力
df

糖尿病データセット(Diabetes dataset)

 このデータセットは回帰分析に向いています。

データセットの内容

インスタンスの数442行
属性の数最初の10列は予測値
対象(target)列11はベースラインから1年後の疾患進行の定量的尺度
属性情報・年齢
・性別
・BMI:肥満指数
・bp:平均血圧
・s1 tc:血清総コレステロール
・s2 ldl:低密度リポタンパク質
・s3 hdl:高密度リポタンパク質
・s4 ch:総コレステロール / HDL
・s5 ltg:血清トリグリセリドレベルのログ
・s6 glu:血糖値

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_diabetes 

#変数datasetにデータセットの情報を格納
dataset = load_diabetes ()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_diabetes #データセットを取得するのに必要

# データセット読み込み
dataset = load_diabetes ()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

#targetの列を追加
df['target'] = dataset.target

# DataFrameを出力
df

手書きの数字データセット(Optical recognition of handwritten digits dataset)

 このデータセットは分類分析に向いています。

データセットの内容

インスタンスの数1,797行
属性の数64
属性情報0~16の範囲の整数ピクセルの8×8イメージ

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_digits

#変数datasetにデータセットの情報を格納
dataset = load_digits()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_digits #データセットを取得するのに必要

# データセット読み込み
dataset = load_digits()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

#targetの列を追加
df['target'] = dataset.target

# DataFrameを出力
df

身体運動用データセット(Linnerrud dataset)

 このデータセットは回帰分析に向いています。

データセットの内容

インスタンスの数20行
属性の数3つ
属性情報・顎
・腹筋
・ジャンプ

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_linnerud

#変数datasetにデータセットの情報を格納
dataset = load_linnerud()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_linnerud #データセットを取得するのに必要

# データセット読み込み
dataset = load_linnerud()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

# DataFrameを出力
df

ワインデータセット(Wine recognition dataset)

 このデータセットは分類分析に向いています。

データセットの内容

インスタンスの数178行
属性の数13個の数値予測属性 と クラス
属性情報・アルコール
・りんご酸
・灰
・灰のアルカリ度
・マグネシウム
・総フェノール類
・フラバノイド
・非フラバノイドフェノール
・プロアントシアニン
・色の濃さ
・色相
・希釈ワインのOD280/OD315
・プロリン
・クラス(クラス0、クラス1、クラス2)

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_wine

#変数datasetにデータセットの情報を格納
dataset = load_wine()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_wine #データセットを取得するのに必要

# データセット読み込み
dataset = load_wine()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

#targetの列を追加
df['target'] = dataset.target

# DataFrameを出力
df

乳がんデータセット(Breast cancer wisconsin (diagnostic) dataset)

 このデータセットは分類分析に向いています。

データセットの内容

インスタンスの数569行
属性の数30個の数値予測属性 と クラス
属性情報・半径
・テクスチャ(グレースケール値の標準偏差)
・周囲
・エリア
・滑らかさ(半径の長さの局所的な変動)
・コンパクトさ(周囲^2/面積 – 1.0)
・凹み(輪郭の凹み度合い)
・凹点(輪郭の凹部の数)
・対象
・フラクタル次元(「海岸線近似」 -1)
・クラス(WDBC-悪性、WDBC-良性)

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_breast_cancer

#変数datasetにデータセットの情報を格納
dataset = load_breast_cancer()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_breast_cancer #データセットを取得するのに必要

# データセット読み込み
dataset = load_breast_cancer()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

#targetの列を追加
df['target'] = dataset.target

# DataFrameを出力
df

まとめ

 いろいろなデータセットに触れて実際に分析してみないと、なかなか理解できないものです。

 せっかく良いデータセットが手に入るので、いろいろ試して理解を深めましょう。

 理解が深まったら実戦形式で実装してみるとさらに理解が深まるので、下のような書籍で実力を測ってみてはいかがでしょうか?

 本やネットの内容をコピペしてやった気になってしまう方にはオススメの書籍です。

より実践的な学習をしたいならこちらがおすすめ
楽天Kobo電子書籍ストア
¥2,376 (2025/03/27 04:50時点 | 楽天市場調べ)
楽天Kobo電子書籍ストア
¥2,376 (2025/03/27 04:50時点 | 楽天市場調べ)
楽天Kobo電子書籍ストア
¥2,376 (2025/04/02 18:04時点 | 楽天市場調べ)

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

記事URLをコピーしました