目次

予測精度最大化(βver)

概要

  • アルゴリズムを指定し、パラメータを複数設定することで、総当たりのパターンごとの予測精度を算出します。
  • 結果は総当たりの結果、最も精度がよかったパターンで機械学習モデルを構築します。
  • この機能の大きな特徴として、機械学習用の一部の前処理を包含しており、前処理の方法自体も総当りで試すことができます。

入出力

入力

  • データ(目的変数1列と説明変数1列以上)

出力

  • 機械学習モデル
  • データ(チューニング結果)
  • データ(特徴量名)
    • チューニング結果中、最も精度がよかったパターンで使用された説明変数一覧

サンプル

社員の退職予測を行う

仕様補足

前処理の設定

処理は設定した順番に実行される。例えば

  • 分散が小さい特徴量を除外
  • 主成分分析(PCA)

の順で設定すると、分散が小さい特徴量の列が除外されたデータに対して、主成分分析が実行される

精度検証をどうやっているか

k-fold cross validation で精度検証している。(データの分割数は「チューニングの設定」で設定可能)

パラメータチューニング

  • 各処理設定で設定したパラメータセットの組み合わせに対してチューニングを行う
  • 不正なパラメータセットが設定されている場合は探索対象から除外される
    • 例えば、ランダムフォレストの「木を構成する特徴量の数」が実際のデータの特徴量数より大きい場合など
  • モデルのパラメータ設定だけでなく、前処理でのパラメータ設定も同様
  • 最適なパラメータセットの探索には下記の方法が設定可能
    • グリッドサーチ:全組合わせを実行して一番精度のよいものを選択する
    • ランダムサーチ:全組合わせからランダムにパラメータセットを選択しそのなかで精度のよいものを選択する
この記事は役に立ちましたか?
はい いいえ
この記事は役に立ちましたか?
はい いいえ