データの縦持ち・横持ちを学ぶ
縦持ちと横持ち
データの形式には、主に「縦持ち」と「横持ち」の 2 種類があります。
これらの形式にはそれぞれ特徴と利点がありますが、縦持ち形式は特に多くの場面で利用される形式となっています。
下記は同じデータを縦持ちと横持ちの 2 つの形式で表した例です。
横持ちデータの例
名前 | 2021 年度売上 | 2022 年度売上 | 2023 年度売上 |
---|---|---|---|
田中 | 100 万円 | 110 万円 | 105 万円 |
佐藤 | 90 万円 | 95 万円 | 100 万円 |
鈴木 | 85 万円 | 88 万円 | 90 万円 |
縦持ちデータの例
名前 | 年度 | 売上 |
---|---|---|
田中 | 2021 年度 | 100 万円 |
田中 | 2022 年度 | 110 万円 |
田中 | 2023 年度 | 105 万円 |
佐藤 | 2021 年度 | 90 万円 |
佐藤 | 2022 年度 | 95 万円 |
佐藤 | 2023 年度 | 100 万円 |
鈴木 | 2021 年度 | 85 万円 |
鈴木 | 2022 年度 | 88 万円 |
鈴木 | 2023 年度 | 90 万円 |
縦持ちデータのメリット
縦持ち形式は、データの追加、更新、分析、表示など、多くの場面での操作が簡単になるため、多くの場面で推奨される形式となっています。
柔軟性
新しいデータ(例: 2024 年度の売上)を追加する際、新しい行を追加するだけでよく、新しい列を追加する必要がありません。
データ整合性
各行が一意の情報(例: 田中の 2021 年度の売上)を持つため、データの重複や欠落が起きにくくなります。
扱いやすさ
多くのデータベースや分析ツールは、縦持ちデータを前提としており、データの処理や集計が簡単になります。
読みやすさ
大量のカテゴリや時系列データを扱う場合、縦持ちの方がデータが視覚的に読みやすくなることが多いです。
横持ちデータの注意点
横持ちデータは、特に大量のカテゴリや時系列データを持つ場合、多くの列が欠損の状態になることがあります。
このようなデータ構造を「疎行列」と呼びます。
下記は、疎行列の例です。
名前 | 2000 年度売上 | … | 2023 年度売上 |
---|---|---|---|
田中 | <NA> | … | 105 万円 |
佐藤 | <NA> | … | 100 万円 |
鈴木 | <NA> | … | 90 万円 |
疎行列はリソースを非効率的に使用し、データ処理の速度も低下させる可能性があります。
縦持ち形式に変換することで、このような問題を効率的に解決することができます。