データ品質スコアとは何か
データ品質スコアとは、データが本来の用途にどの程度適しているかを要約する1つの数値です。「自社のデータは良いのか」と問いかけて曖昧な答えを得る代わりに、スコアはその問いを1つの数値(通常は0から100までのパーセンテージ)に変換し、追跡、比較、対応ができるようにします。
このスコアは**データ信頼性スコア(data reliability score)**と呼ばれることもあります。どちらの名称も同じものを指します。複数の基礎的な品質チェックを1つの代表的な数値にまとめた複合指標です。
スコアそのものが目的ではありません。その価値は、スコアによって何ができるかにあります。ベースラインを設定し、劣化を監視し、改善の取り組みが成果を上げていることを証明できるのです。
1つの数値が重要な理由
生の品質チェックは数十もの個別のシグナル(入力率、重複件数、フォーマットエラー、古くなったレコード)を生み出します。それら単体では伝えるのが難しく、無視されやすいものです。1つのスコアは、3つの問題を一度に解決します。
| 問題 | スコアによる解決 |
|---|---|
| 共通言語がない | アナリストから経営層まで、誰もが理解できる1つの数値 |
| 進捗を追跡する手段がない | 品質が改善しているのか悪化しているのかを示すトレンドライン |
| 優先順位をつける手段がない | 最も弱い次元やフィールドを指し示す内訳 |
スコアは見出しです。その背後にある内訳が、実際に対応すべき対象です。
データ品質スコアの計算方法
データ品質スコアは、個々の品質次元の加重平均です。計算は3つのステップで行われます。
ステップ1:各次元を測定する
各次元は合格率(定められたルールを満たすレコードまたは値の割合)として測定されます。
| 次元 | 測定内容 | ルールの例 |
|---|---|---|
| 完全性 | 必要なデータが存在する | 必須フィールドが入力されている |
| 妥当性 | データがフォーマットに準拠する | メールアドレスが妥当なパターンに一致する |
| 一意性 | 重複レコードがない | 顧客ごとに1件のレコード |
| 適時性 | データが最新である | 90日以内に更新されたレコード |
| 一貫性 | 値が統一されている | 国が「USA」として保存され、「US」が混在しない |
各次元の詳細については、5つの次元を参照してください。
ステップ2:重みを適用する
すべての次元が等しく重要なわけではありません。重みは、その次元がビジネスにとってどれだけ重要かを反映し、合計で100%になります。
| 次元 | 合格率 | 重み | 寄与度 |
|---|---|---|---|
| 完全性 | 92% | 30% | 27.6 |
| 妥当性 | 88% | 25% | 22.0 |
| 一意性 | 99% | 20% | 19.8 |
| 適時性 | 75% | 15% | 11.3 |
| 一貫性 | 90% | 10% | 9.0 |
| 合計 | 100% | 89.7 |
ステップ3:1つのスコアにまとめる
各寄与度を合計して最終的な数値を求めます。上記の例では、データ品質スコアは100点中89.7点です。
一般的な計算式は次のとおりです。
データ品質スコア = Σ(次元の合格率 × 次元の重み)
スコアは加重されているため、同じ生データを持つ2つの組織でも、次元の重み付けが異なればスコアが変わることがあります。これは意図的なものです。重みは、あなたのビジネスにとって「良い」とは何を意味するかを符号化しているのです。
測定のレベル
組織全体の1つのスコアはレポートに役立ちますが、本当の作業はそれを分解できるようになったときに始まります。
| レベル | 答える問い | 用途 |
|---|---|---|
| 組織/データセット | 自社のデータは全体としてどれだけ健全か | 経営層向けレポート、トレンド追跡 |
| オブジェクト/テーブル | どのエンティティがスコアを引き下げているか | 修正の優先順位付け |
| フィールド | 正確にどのカラムが問題なのか | 的を絞った修正と検証ルール |
89.7というスコアは、完全性が40%の単一フィールドを隠しているかもしれません。フィールドレベルの内訳は、曖昧な数値を具体的なToDoリストに変えます。
良いスコアの基準
普遍的な合格ラインはありません。適切な目標値はデータの用途によって異なります。これはデータ品質全般を支える「目的適合性」の原則と同じです。
| スコア範囲 | 解釈 | 典型的な用途 |
|---|---|---|
| 95〜100% | 信頼できる | 顧客接点データ、規制対象データ |
| 85〜94% | 信頼性がある | 一般的な業務データ |
| 70〜84% | 注意が必要 | 社内・二次的データ |
| 70%未満 | 信頼できない | 依拠する前に修正する |
しきい値は、誤りによるコストから設定しましょう。請求やコンプライアンスに使われるフィールドは、時折の社内参照に使われるものよりも高い基準が必要です。
スコアを時系列で追跡する
一度だけ測定したスコアはスナップショットです。繰り返し測定することで、それはトレンドになります。そして価値はそのトレンドにあります。
- **時点(Point-in-time)**スコアは「現在どこに立っているか」に答えます
- **継続(Continuous)**スコアは「良くなっているのか悪くなっているのか」に答えます
CRMや業務データは、手動入力、連携、時間の経過によって継続的に劣化します。そのため、前四半期には健全に見えたスコアが静かに低下していくことがあります。定期的な再測定は、劣化がレポートやAIモデルに到達する前に、早期に捉えます。
Salesforceにおけるデータ品質スコア
Salesforceの内部でも、同じモデルが適用されます。次元はAccount、Contact、Leadといったオブジェクトをまたいで測定され、重み付けされ、ダッシュボードで監視できる1つのスコアにまとめられます。
DQS(Data Quality Score)は、これをネイティブに測定します。データのエクスポートは不要で、5つの次元をまたいで測定し、AI対応のためのPII Detectionを追加します。スコアがどのように構築され、CRM内でどのように読み取られるかを確認するには、次に進んでください。
- Salesforceでデータ品質を測定する方法 — Salesforce組織に適用されたスコア。データ信頼性スコア(data reliability score)とも呼ばれます
- Salesforceデータ品質ダッシュボード — 代表的な数値と並べて追跡する価値のある指標
- Salesforceにおけるデータ品質 — より広い全体像
よくある質問
データ品質スコアとは何ですか。
データ品質スコアとは、データが本来の用途にどの程度適しているかを要約する1つの数値で、通常は0から100までのパーセンテージで表されます。完全性、妥当性、一意性、適時性、一貫性といった個々の品質次元の加重平均として算出されます。
データ品質スコアはどのように計算しますか。
各品質次元は合格率(定められたルールを満たすレコードまたは値の割合)として測定されます。それらの次元スコアは加重平均にまとめられ、各次元の重みはビジネスにとっての重要度を反映します。その結果が0から100までの1つのパーセンテージになります。
良いデータ品質スコアとはどのくらいですか。
適切な目標値はデータの用途によって異なるため、普遍的な合格ラインはありません。目安として、顧客接点データや規制対象データには95%以上が求められ、一般的な業務データには85%以上が許容され、70%を下回るものは信頼する前に修正が必要なデータであることを示します。
データ品質スコアはデータ信頼性スコア(data reliability score)と同じものですか。
はい。これらの用語は同じ意味で使われます。どちらも、複数の基礎的な品質次元を1つの数値にまとめることでデータセットの信頼性を表し、時系列で追跡できる1つの複合的な数値を指します。
次のステップ
- CRMで測定する:Salesforceでデータ品質を測定する方法
- 入力要素を理解する:5つの次元
- 基礎から始める:データ品質とは何か
- 自社のデータをベンチマークする:AI対応度診断を受けて、3分でスコアを確認しましょう