不均衡データに対するサンプリング
この機能は、不均衡なデータの調整を行います。
不均衡とは、あるクラス(例:病気の有無など)のサンプル数が他よりも非常に多いまたは少ない場合を指します。
データのサンプル数を増減させることで、各クラスのサンプル数のバランスを取ります。
例えば、ある病気のデータが少ない場合、それを増やして分析の精度を向上させたり、逆に多すぎる場合は減らすことができます。
サンプリングには複数のアルゴリズムを使用でき、データの性質に応じて最適な方法を選択できます。
この処理はデータ分析の精度を高めるための重要なステップです。
入出力定義
定義 | 内容 |
---|---|
入力 | データ |
出力 | データ |