機械学習を学ぶ
教師あり学習と教師なし学習
機械学習は、コンピュータにデータを学習させて、新しい情報や未知のデータに対して予測や判断をさせる技術です。
この学習の方法には大きく「教師あり学習」と「教師なし学習」の 2 つの方法があります。
教師あり学習
この方法では、答えがわかっているデータ(入力と正解のペア)を使って、コンピュータに学習させます。学習が終わると、新しい入力データに対する答えを予測することができます。
データの例
部屋の数 | 広さ(㎡) | 価格(万円) |
---|---|---|
3 | 50 | 2500 |
2 | 30 | 1800 |
4 | 70 | 3200 |
このデータを使って、新しい家の「部屋の数」と「広さ」を入力すると、「価格」を予測するモデルを学習させることができます。
教師なし学習
答えがわからないデータを使って、コンピュータにデータのパターンや構造を見つけさせる方法です。
主に、データのクラスタリング(グループ分け)や次元削減などに使われます。
データの例
顧客 ID | リンゴの購入数 | バナナの購入数 |
---|---|---|
A | 5 | 2 |
B | 2 | 6 |
C | 4 | 3 |
このデータを使って、類似の購入傾向を持つ顧客のグループを自動的に作成することができます。
説明変数と目的変数
機械学習や統計学において、データを解析する際には「説明変数」と「目的変数」という 2 つの主要な変数のタイプを扱います。
機械学習の文脈では、説明変数を使用して目的変数の値を予測することが多いです。
例えば、広告の予算(説明変数)と売上(目的変数)の関係は、広告の予算が増えると売上が増加する可能性があり、機械学習によって予測できる可能性があります。
例 1: 家の価格予測
教師あり学習を利用して、物件の価格を予測するモデルを構築することを想定します。
価格(万円) | 部屋の数 | 広さ(㎡) |
---|---|---|
2500 | 3 | 50 |
1800 | 2 | 30 |
3200 | 4 | 70 |
目的変数
このデータでは、「価格」が目的変数として使用されます。
説明変数
このデータでは、「部屋の数」と「広さ」が説明変数として使用されます。
例 2: 学生の試験スコア予測
教師あり学習を利用して、試験スコアを予測するモデルを構築することを想定します。
試験スコア(点) | 勉強時間(時間) | 予習回数 |
---|---|---|
85 | 5 | 3 |
65 | 2 | 1 |
92 | 7 | 4 |
目的変数
このデータでは、「試験スコア」が目的変数として使用されます。
説明変数
このデータでは、「勉強時間」と「予習回数」が説明変数として使用されます。
例 3: 顧客セグメンテーション
教師なし学習の手法の一つであるクラスタリングを使用して、顧客を似た特性を持つグループに分けることを想定します。
顧客 ID | 年間購入金額(万円) | 訪問頻度(回/月) |
---|---|---|
A | 12 | 5 |
B | 3 | 2 |
C | 8 | 4 |
説明変数
このデータでは、「年間購入金額」と「訪問頻度」が説明変数として使用されます。