2023.07.16 2023.11.06

【Python】学習におすすめなデータセットとインポート方法

hiragi-books

記事内に商品プロモーションを含む場合があります

　ChatGPTの登場でAIブームに火が着き、Pythonの勉強を始めた方も多いのではないでしょうか。

　しかし勉強しようにも練習に適したデータセットがなかなか見つからない！

　こんな問題を抱えていませんか？

　この記事では練習に最適なPythonの『sklearn.datasets』に含まれているデータセットについて紹介します！

より実践的な学習をしたいならこちらがおすすめ

Python 実践データ分析 100本ノック第2版 [ 下山輝昌 ]

楽天ブックス

¥2,640 （2026/04/03 09:35時点 | 楽天市場調べ）

＼楽天ポイント4倍セール！／

ポチップ

Python 実践データ加工／可視化 100本ノック[ 下山輝昌 ]

楽天Kobo電子書籍ストア

¥2,376 （2025/07/12 05:50時点 | 楽天市場調べ）

＼楽天ポイント4倍セール！／

ポチップ

Python実践機械学習システム100本ノック[ 下山輝昌 ]

楽天Kobo電子書籍ストア

¥2,376 （2025/07/12 05:50時点 | 楽天市場調べ）

＼楽天ポイント4倍セール！／

ポチップ

Python 実践AIモデル構築 100本ノック[ 下山輝昌 ]

楽天Kobo電子書籍ストア

¥2,376 （2025/04/02 18:04時点 | 楽天市場調べ）

＼楽天ポイント4倍セール！／

ポチップ

※後述のコードは基本無料の『Google Colaboratory』で記述することを想定しています。

データセット
まとめ

データセット

参考：https://scikit-learn.org/stable/datasets/toy_dataset.html

データセットの種類

アヤメ植物データセット（Iris plants dataset）
糖尿病データセット（Diabetes dataset）
手書きの数字データセット（Optical recognition of handwritten digits dataset）
身体運動用データセット（Linnerrud dataset）
ワインデータセット（Wine recognition dataset）
乳がんデータセット（Breast cancer wisconsin (diagnostic) dataset）

アヤメ植物データセット（Iris plants dataset）

　このデータセットは分類分析に向いています。

※上図は見やすいように整形加工したものです。

※整形方法は後述のコードを参考にしてください。

データセットの内容

インスタンスの数	150行（3クラス × 50)
属性の数	４つの数値属性とクラス
属性情報	・がく片の長さ（cm）・がく片の幅（cm）・花びらの長さ（cm）・花びらの幅（cm）・クラス（Setosa、Versicolour、Virginica）

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_iris

#変数datasetにデータセットの情報を格納
dataset = load_iris()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_iris #データセットを取得するのに必要

# データセット読み込み
dataset = load_iris()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

# 品種を表すtargetの列を追加
df['target'] = dataset.target

# 品種を判別する
def get_species_name(target):
    species_names = dataset.target_names #target_namesで品種名を取得してspecies_nameに格納
    return species_names[target]

# 品種の列を追加
df['species'] = df['target'].apply(get_species_name)

# DataFrameを出力
df

糖尿病データセット（Diabetes dataset）

　このデータセットは回帰分析に向いています。

データセットの内容

インスタンスの数	442行
属性の数	最初の10列は予測値
対象（target）	列11はベースラインから1年後の疾患進行の定量的尺度
属性情報	・年齢・性別・BMI：肥満指数・bp：平均血圧・s1 tc：血清総コレステロール・s2 ldl：低密度リポタンパク質・s3 hdl：高密度リポタンパク質・s4 ch：総コレステロール / HDL ・s5 ltg：血清トリグリセリドレベルのログ・s6 glu：血糖値

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_diabetes 

#変数datasetにデータセットの情報を格納
dataset = load_diabetes ()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_diabetes #データセットを取得するのに必要

# データセット読み込み
dataset = load_diabetes ()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

#targetの列を追加
df['target'] = dataset.target

# DataFrameを出力
df

手書きの数字データセット（Optical recognition of handwritten digits dataset）

　このデータセットは分類分析に向いています。

データセットの内容

インスタンスの数	1,797行
属性の数	64
属性情報	0～16の範囲の整数ピクセルの8×8イメージ

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_digits

#変数datasetにデータセットの情報を格納
dataset = load_digits()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_digits #データセットを取得するのに必要

# データセット読み込み
dataset = load_digits()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

#targetの列を追加
df['target'] = dataset.target

# DataFrameを出力
df

身体運動用データセット（Linnerrud dataset）

　このデータセットは回帰分析に向いています。

データセットの内容

インスタンスの数	20行
属性の数	３つ
属性情報	・顎・腹筋・ジャンプ

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_linnerud

#変数datasetにデータセットの情報を格納
dataset = load_linnerud()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_linnerud #データセットを取得するのに必要

# データセット読み込み
dataset = load_linnerud()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

# DataFrameを出力
df

ワインデータセット（Wine recognition dataset）

　このデータセットは分類分析に向いています。

データセットの内容

インスタンスの数	178行
属性の数	13個の数値予測属性とクラス
属性情報	・アルコール・りんご酸・灰・灰のアルカリ度・マグネシウム・総フェノール類・フラバノイド・非フラバノイドフェノール・プロアントシアニン・色の濃さ・色相・希釈ワインのOD280/OD315 ・プロリン・クラス（クラス0、クラス1、クラス2）

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_wine

#変数datasetにデータセットの情報を格納
dataset = load_wine()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_wine #データセットを取得するのに必要

# データセット読み込み
dataset = load_wine()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

#targetの列を追加
df['target'] = dataset.target

# DataFrameを出力
df

乳がんデータセット（Breast cancer wisconsin (diagnostic) dataset）

　このデータセットは分類分析に向いています。

データセットの内容

インスタンスの数	569行
属性の数	30個の数値予測属性とクラス
属性情報	・半径・テクスチャ（グレースケール値の標準偏差）・周囲・エリア・滑らかさ（半径の長さの局所的な変動）・コンパクトさ（周囲^2/面積 – 1.0）・凹み（輪郭の凹み度合い）・凹点（輪郭の凹部の数）・対象・フラクタル次元（「海岸線近似」 -1）・クラス（WDBC-悪性、WDBC-良性）

インポート方法

#Sklearn.datasetからデータセットをインポート
from sklearn.datasets import load_breast_cancer

#変数datasetにデータセットの情報を格納
dataset = load_breast_cancer()

見やすいようにDataFrame型に整形

import pandas as pd #DataFrame型に変換するのに必要
from sklearn.datasets import load_breast_cancer #データセットを取得するのに必要

# データセット読み込み
dataset = load_breast_cancer()

#読み込んだデータセットをDataFrame型に変換して関数dfに格納
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)

#targetの列を追加
df['target'] = dataset.target

# DataFrameを出力
df