Skip to content

列のグループ化を学ぶ

データ処理におけるグループ化

データのグループ化は、大量のデータを特定のカテゴリや属性に基づいてまとめる手法の一つです。これにより、データの特徴やパターンを明確にし、分析を容易にすることができます。


「データ集計」の例

以下は、ある企業の商品売上データの例です。

日付商品名売上数
2023-09-01商品 A10
2023-09-01商品 B5
2023-09-02商品 A8
2023-09-02商品 B7
2023-09-03商品 A12
2023-09-03商品 B6

このデータを「商品名」ごとにグループ化し、各商品の合計売上数を計算することで、以下のように集計できます。

商品名合計売上数
商品 A30
商品 B18

「先頭/末尾から n 行選択」の例

以下の表は、さまざまなフルーツの売上データです。

日付フルーツ名売上数
1 日りんご5
1 日みかん7
1 日ぶどう3
2 日りんご6
2 日みかん8
2 日ぶどう4

このデータを「日付」でグループ化して、各日における売上の上位 2 つのフルーツを知りたいとします。

結果は次のようになります。

日付フルーツ名売上数
1 日みかん7
1 日りんご5
2 日みかん8
2 日りんご6

このように、グループ化を行い、その中から先頭または末尾の N 行のデータを取得することで、特定の条件下での上位のデータを簡単に確認することができます。


「列 or 行方向の比率計算」の例

データの比率を計算するとは、ある項目が全体の中でどれくらいの割合を占めているかを示すことです。
グループごとにこれを計算することで、それぞれのグループ内での項目の重要性や割合を知ることができます。
以下の表は、2 日間のフルーツの売上データです。

日付フルーツ名売上数
1 日りんご5
1 日みかん7
1 日ぶどう3
2 日りんご6
2 日みかん8
2 日ぶどう4

このデータを「日付」でグループ化して、1 日目の各フルーツの売上の比率を計算します。 1 日目の全売上数は (5 + 7 + 3 = 15)、2 日目の全売上数は (6 + 8 + 4 = 18) です。 計算した結果は以下のようになります。

日付フルーツ名売上数売上比率
1 日りんご533.3%
1 日みかん746.7%
1 日ぶどう320%
2 日りんご633.3%
2 日みかん844.4%
2 日ぶどう422.2%

このように、各日ごとにグループ化して比率を計算し、その結果を新しいデータフレームに表示することで、一目で各項目の割合を知ることができます。