マニュアルML
概要
- オートMLとは対照的に、前処理設定や学習アルゴリズムの設定をユーザーが任意で設定できる機能です。
- 予測モデルを構築することはもちろん、回帰分析や決定木分析、要因分析に活用できます。
- 各項目は複数設定が可能であり、その場合、最も精度が高い組み合わせを自動探索します。
- オートML同様、構築したモデルの精度や機械が重視したデータ、精度を落としてしまっている原因などをボニートくんで自動可視化します。
入出力
入力
- データ(目的変数1列と説明変数1列以上)
出力
- 学習済みモデル
- 構築モデル情報(精度の概要など)
- モデル補足情報(機械が重視したデータなど)
ボニートくん
サンプル
仕様補足
設定可能な前処理
下記の前処理が設定可能
- 欠損値処理
- 数値列の変換(boxcox変換など)
- 文字列の変換(one-hot encodingなど)
- 数値の外れ値処理
- 特徴量選択
選択可能なアルゴリズム
アルゴリズムと合わせて、詳細なパラメータも設定可能。
- ランダムフォレスト
- XGBoost
- LightGBM
- CatBoost
- SVM
- 回帰分析
- 一般線形モデル
- ロジスティック回帰
- 線形混合モデル
- 決定木
探索
設定された内容の総当りの組み合わせ分モデルを構築するわけではなく、ベイズ最適化の考えに基づき、よりよい精度が出る組み合わせを探索する仕組みが搭載されています。
これにより圧倒的に実行時間を短縮でき、なおかつ高い精度を期待できます。
なお、この探索回数の上限は処理モードでコントロールできます。
処理モード
処理モードにより学習に使うデータ比率などをコントロールできます。この設定はノード実行時間に大きく影響を与えます。
- 速度重視
- 実行時間優先のモード。精度重視モードに比べて精度が劣る場合も
- 学習に使うデータの行数比率:30%
- 特徴量選択の上限探索回数:3
- 学習アルゴリズムの上限探索回数:3
- アンサンブルモデルを構築しない
- 精度重視
- 時間がかかってもいいので精度を出したい場合のモード。ただし、探索回数が増えるため、過学習リスクが上がる恐れも
- 学習に使うデータの行数比率:70%
- 特徴量選択の上限探索回数:10
- 学習アルゴリズムの上限探索回数:10
- アンサンブルモデルを構築する
- カスタム
- 学習に使うデータの比率
- 特徴量選択の上限探索回数
- 学習アルゴリズムの上限探索回数
- を自分の好みの値に設定できる
最大化する指標
どのモデル精度を最大化するかを選択可能。
カテゴリ分類の場合は、
- 正解率[Accuracy]
- F値[F1]
- 再現率[Recall]
- 適合率[Precision]
数値予測の場合は、
- 平均絶対相対誤差[MAPE]
- 平均絶対誤差[MAE]
- 二乗平均平方根誤差[RMSE]
から選択可能。
出力データ「構築モデル情報(精度の概要など)」の詳細
データ内の
- 精度評価
- 過学習リスク
については「精度検証結果」をご参考下さい。