🧹 はじめに
データ分析を始めた中小企業が最初に直面するのが、「データが汚すぎて使えない」という問題です。入力者によって形式がバラバラだったり、欠けている情報(欠損値)が多かったりすると、集計作業に膨大な時間がかかり、「データの泥沼」にハマってしまいます。
データ分析のスピードを上げるために、Excelやスプレッドシートで誰もができる「データ整理の基本ルール」を確立しましょう。
1. データ形式は「全角・半角」「大文字・小文字」を統一
最も多い間違いが、表記ゆれです。PCは「(株)」と「株式会社」を別のデータとして扱います。
- 統一ルール例:
- カタカナ: すべて全角に統一(例: アイウエオ → アイウエオ)。
- 数字: すべて半角に統一。
- 会社名: 「(株)」や「(有)」は、すべて「株式会社」や「有限会社」に統一するか、略称を一つに定める。
- Excel活用: データの統一には、Excelの「置換」機能や、TRIM関数(余分な空白を削除)が役立ちます。
2. 「1行1データ」の原則を徹底する
データ分析の基本は、「分析単位(顧客、商品、注文など)が1行に収まっている」ことです。
- NG例: 1つの注文の明細が、複数の行に分かれていたり、1つのセルに複数の情報(例: 商品名と価格を一つのセルに記載)が入っていたりする。
- OK例: 顧客リストであれば、必ず1行に1人分の情報を、商品注文であれば1行に1注文の情報を入れます。
3. 欠損値(空欄)は「なぜ空欄か」を明確にする
データが空欄(欠損値)になっている場合、「入力忘れ」か「元々情報がない」かを区別することが重要です。
- ルール化:
- 「入力忘れ」の場合は、すぐに担当者が確認して埋める。
- 「元々情報がない」(例: アンケートで未回答)場合は、空欄のままではなく、「N/A」や「未回答」といった特定の文字列を必ず入力する。
- 効果: 空欄の理由を明確にしておくことで、集計時に「未回答者」を意図的に分析から除外したり、未回答が多い項目を改善したりする意思決定に役立ちます。
📌 まとめ
データ分析の前に、「データ整理」に時間をかけることが、結果的に分析のスピードを上げます。これらの基本ルールを社員間で共有し、日々の入力から「きれいなデータ」を意識しましょう。次回の記事では、紙の資料を「生きるデータ」に変える方法をご紹介します。


コメント