列のグループ化を学ぶ
データ処理におけるグループ化
データのグループ化は、大量のデータを特定のカテゴリや属性に基づいてまとめる手法の一つです。これにより、データの特徴やパターンを明確にし、分析を容易にすることができます。
「データ集計」の例
以下は、ある企業の商品売上データの例です。
日付 | 商品名 | 売上数 |
---|---|---|
2023-09-01 | 商品 A | 10 |
2023-09-01 | 商品 B | 5 |
2023-09-02 | 商品 A | 8 |
2023-09-02 | 商品 B | 7 |
2023-09-03 | 商品 A | 12 |
2023-09-03 | 商品 B | 6 |
このデータを「商品名」ごとにグループ化し、各商品の合計売上数を計算することで、以下のように集計できます。
商品名 | 合計売上数 |
---|---|
商品 A | 30 |
商品 B | 18 |
「先頭/末尾から n 行選択」の例
以下の表は、さまざまなフルーツの売上データです。
日付 | フルーツ名 | 売上数 |
---|---|---|
1 日 | りんご | 5 |
1 日 | みかん | 7 |
1 日 | ぶどう | 3 |
2 日 | りんご | 6 |
2 日 | みかん | 8 |
2 日 | ぶどう | 4 |
このデータを「日付」でグループ化して、各日における売上の上位 2 つのフルーツを知りたいとします。
結果は次のようになります。
日付 | フルーツ名 | 売上数 |
---|---|---|
1 日 | みかん | 7 |
1 日 | りんご | 5 |
2 日 | みかん | 8 |
2 日 | りんご | 6 |
このように、グループ化を行い、その中から先頭または末尾の N 行のデータを取得することで、特定の条件下での上位のデータを簡単に確認することができます。
「列 or 行方向の比率計算」の例
データの比率を計算するとは、ある項目が全体の中でどれくらいの割合を占めているかを示すことです。
グループごとにこれを計算することで、それぞれのグループ内での項目の重要性や割合を知ることができます。
以下の表は、2 日間のフルーツの売上データです。
日付 | フルーツ名 | 売上数 |
---|---|---|
1 日 | りんご | 5 |
1 日 | みかん | 7 |
1 日 | ぶどう | 3 |
2 日 | りんご | 6 |
2 日 | みかん | 8 |
2 日 | ぶどう | 4 |
このデータを「日付」でグループ化して、1 日目の各フルーツの売上の比率を計算します。 1 日目の全売上数は (5 + 7 + 3 = 15)、2 日目の全売上数は (6 + 8 + 4 = 18) です。 計算した結果は以下のようになります。
日付 | フルーツ名 | 売上数 | 売上比率 |
---|---|---|---|
1 日 | りんご | 5 | 33.3% |
1 日 | みかん | 7 | 46.7% |
1 日 | ぶどう | 3 | 20% |
2 日 | りんご | 6 | 33.3% |
2 日 | みかん | 8 | 44.4% |
2 日 | ぶどう | 4 | 22.2% |
このように、各日ごとにグループ化して比率を計算し、その結果を新しいデータフレームに表示することで、一目で各項目の割合を知ることができます。