マニュアルML
データ内の目的変数列と説明変数列を指定して機械学習モデルを構築できます。
マニュアル ML はオート ML とは異なり、ユーザーがデータ前処理と学習アルゴリズムの設定を自由に行える機能です。
各項目は複数設定可能であり、その場合、最も精度の高い組み合わせを自動探索します。
モデルの構築だけでなく、回帰分析、決定木分析、要因分析にも利用できます。
また、オート ML 同様、構築したモデルの重視点などの解釈に関する情報も提供します。
入出力定義
定義 | 内容 | 補足 |
---|---|---|
入力 | データ | |
左出力 | 機械学習モデル | |
中出力 | データ | モデルの精度指標を出力 |
右出力 | データ | 説明変数の重要度などを出力 |
ボニートくん | 精度検証結果 | |
ボニートくん | 機械が重視したデータ | |
ボニートくん | 学習プロセス | |
ボニートくん | 精度改善の余地 | |
ボニートくん | モデル詳細情報 |
サンプル
処理内容補足
実施する前処理
精度が最大化するように自動的に処理を選択します。
- 欠損値処理
- 数値列の変換 (Box-Cox 変換など)
- 文字列の変換 (ワンホットエンコーディングなど)
- 数値の外れ値処理
- 特徴量選択
学習に用いるアルゴリズム
精度が最大化するように自動的に処理を選択します。
- ランダムフォレスト
- XGBoost
- LightGBM
- CatBoost
- SVM
- 回帰分析
- 一般線形モデル
- ロジスティック回帰
- 線形混合モデル
- 決定木
探索
ベイズ最適化に基づき、最適な精度を持つ組み合わせを探索します。 これにより高い精度を短時間で実現できます。探索回数の上限は処理モードで制御できます。
処理設定補足
処理モード
速度重視
実行時間を優先し、精度が劣る場合があります。
パラメータ | 値 |
---|---|
学習に使うデータの行数比率 | 30% |
特徴量選択の上限探索回数 | 3 |
学習アルゴリズムの上限探索回数 | 3 |
アンサンブルモデルを構築 | する |
精度重視
時間がかかっても精度を追求するモード。探索回数が増えるため、過学習リスクが上がることがあります。
パラメータ | 値 |
---|---|
学習に使うデータの行数比率 | 70% |
特徴量選択の上限探索回数 | 10 |
学習アルゴリズムの上限探索回数 | 10 |
アンサンブルモデルを構築 | しない |
カスタム
パラメータ | 値 |
---|---|
学習に使うデータの行数比率 | 任意設定可能 |
特徴量選択の上限探索回数 | 任意設定可能 |
学習アルゴリズムの上限探索回数 | 任意設定可能 |
アンサンブルモデルを構築 | しない |
最大化する指標(オプション)
どの精度を最大化するモデルを構築するかを選択可能です。
カテゴリ分類の場合
- 正解率[Accuracy]
- F 値[F1]
- 再現率[Recall]
- 適合率[Precision]
数値予測の場合
- 平均絶対相対誤差[MAPE]
- 平均絶対誤差[MAE]
- 二乗平均平方根誤差[RMSE]
出力内容補足
モデルの精度指標(中出力)
モデルの精度を確認するための以下の項目を出力します。
項目 | 説明 |
---|---|
採用モデル | 学習に採用されたアルゴリズムを表示 |
精度指標値 | 選択した指標の値を表示 |
精度評価 | 精度指標値に基づく評価を表示 |
過学習リスク(10 段階) | モデルの過学習リスクを 10 段階で表示 |
モデル補足情報(右出力)
採用モデルによって異なります。
回帰モデルの場合
- 線形回帰
- 一般化線形モデル
- ロジスティック回帰
の場合、説明変数ごとの相関係数など回帰モデルの解釈情報を出力します。
回帰モデル以外の場合
モデル構築時の説明変数ごとの重要度を出力します。重要度が高いほどモデルが重視した変数です。