Skip to main content

データ品質スコアとは何か

データ品質スコアは、データの健全性を1つの数値に変換します。その計算方法、良いスコアの基準、そして時系列で追跡する方法を学びましょう。

データ品質スコアとは何か

データ品質スコアとは、データが本来の用途にどの程度適しているかを要約する1つの数値です。「自社のデータは良いのか」と問いかけて曖昧な答えを得る代わりに、スコアはその問いを1つの数値(通常は0から100までのパーセンテージ)に変換し、追跡、比較、対応ができるようにします。

このスコアは**データ信頼性スコア(data reliability score)**と呼ばれることもあります。どちらの名称も同じものを指します。複数の基礎的な品質チェックを1つの代表的な数値にまとめた複合指標です。

スコアそのものが目的ではありません。その価値は、スコアによって何ができるかにあります。ベースラインを設定し、劣化を監視し、改善の取り組みが成果を上げていることを証明できるのです。

1つの数値が重要な理由

生の品質チェックは数十もの個別のシグナル(入力率、重複件数、フォーマットエラー、古くなったレコード)を生み出します。それら単体では伝えるのが難しく、無視されやすいものです。1つのスコアは、3つの問題を一度に解決します。

問題スコアによる解決
共通言語がないアナリストから経営層まで、誰もが理解できる1つの数値
進捗を追跡する手段がない品質が改善しているのか悪化しているのかを示すトレンドライン
優先順位をつける手段がない最も弱い次元やフィールドを指し示す内訳

スコアは見出しです。その背後にある内訳が、実際に対応すべき対象です。

データ品質スコアの計算方法

データ品質スコアは、個々の品質次元の加重平均です。計算は3つのステップで行われます。

ステップ1:各次元を測定する

各次元は合格率(定められたルールを満たすレコードまたは値の割合)として測定されます。

次元測定内容ルールの例
完全性必要なデータが存在する必須フィールドが入力されている
妥当性データがフォーマットに準拠するメールアドレスが妥当なパターンに一致する
一意性重複レコードがない顧客ごとに1件のレコード
適時性データが最新である90日以内に更新されたレコード
一貫性値が統一されている国が「USA」として保存され、「US」が混在しない

各次元の詳細については、5つの次元を参照してください。

ステップ2:重みを適用する

すべての次元が等しく重要なわけではありません。重みは、その次元がビジネスにとってどれだけ重要かを反映し、合計で100%になります。

次元合格率重み寄与度
完全性92%30%27.6
妥当性88%25%22.0
一意性99%20%19.8
適時性75%15%11.3
一貫性90%10%9.0
合計100%89.7

ステップ3:1つのスコアにまとめる

各寄与度を合計して最終的な数値を求めます。上記の例では、データ品質スコアは100点中89.7点です。

一般的な計算式は次のとおりです。

データ品質スコア = Σ(次元の合格率 × 次元の重み)

スコアは加重されているため、同じ生データを持つ2つの組織でも、次元の重み付けが異なればスコアが変わることがあります。これは意図的なものです。重みは、あなたのビジネスにとって「良い」とは何を意味するかを符号化しているのです。

測定のレベル

組織全体の1つのスコアはレポートに役立ちますが、本当の作業はそれを分解できるようになったときに始まります。

レベル答える問い用途
組織/データセット自社のデータは全体としてどれだけ健全か経営層向けレポート、トレンド追跡
オブジェクト/テーブルどのエンティティがスコアを引き下げているか修正の優先順位付け
フィールド正確にどのカラムが問題なのか的を絞った修正と検証ルール

89.7というスコアは、完全性が40%の単一フィールドを隠しているかもしれません。フィールドレベルの内訳は、曖昧な数値を具体的なToDoリストに変えます。

良いスコアの基準

普遍的な合格ラインはありません。適切な目標値はデータの用途によって異なります。これはデータ品質全般を支える「目的適合性」の原則と同じです。

スコア範囲解釈典型的な用途
95〜100%信頼できる顧客接点データ、規制対象データ
85〜94%信頼性がある一般的な業務データ
70〜84%注意が必要社内・二次的データ
70%未満信頼できない依拠する前に修正する

しきい値は、誤りによるコストから設定しましょう。請求やコンプライアンスに使われるフィールドは、時折の社内参照に使われるものよりも高い基準が必要です。

スコアを時系列で追跡する

一度だけ測定したスコアはスナップショットです。繰り返し測定することで、それはトレンドになります。そして価値はそのトレンドにあります。

  • **時点(Point-in-time)**スコアは「現在どこに立っているか」に答えます
  • **継続(Continuous)**スコアは「良くなっているのか悪くなっているのか」に答えます

CRMや業務データは、手動入力、連携、時間の経過によって継続的に劣化します。そのため、前四半期には健全に見えたスコアが静かに低下していくことがあります。定期的な再測定は、劣化がレポートやAIモデルに到達する前に、早期に捉えます。

Salesforceにおけるデータ品質スコア

Salesforceの内部でも、同じモデルが適用されます。次元はAccount、Contact、Leadといったオブジェクトをまたいで測定され、重み付けされ、ダッシュボードで監視できる1つのスコアにまとめられます。

DQS(Data Quality Score)は、これをネイティブに測定します。データのエクスポートは不要で、5つの次元をまたいで測定し、AI対応のためのPII Detectionを追加します。スコアがどのように構築され、CRM内でどのように読み取られるかを確認するには、次に進んでください。

よくある質問

データ品質スコアとは何ですか。

データ品質スコアとは、データが本来の用途にどの程度適しているかを要約する1つの数値で、通常は0から100までのパーセンテージで表されます。完全性、妥当性、一意性、適時性、一貫性といった個々の品質次元の加重平均として算出されます。

データ品質スコアはどのように計算しますか。

各品質次元は合格率(定められたルールを満たすレコードまたは値の割合)として測定されます。それらの次元スコアは加重平均にまとめられ、各次元の重みはビジネスにとっての重要度を反映します。その結果が0から100までの1つのパーセンテージになります。

良いデータ品質スコアとはどのくらいですか。

適切な目標値はデータの用途によって異なるため、普遍的な合格ラインはありません。目安として、顧客接点データや規制対象データには95%以上が求められ、一般的な業務データには85%以上が許容され、70%を下回るものは信頼する前に修正が必要なデータであることを示します。

データ品質スコアはデータ信頼性スコア(data reliability score)と同じものですか。

はい。これらの用語は同じ意味で使われます。どちらも、複数の基礎的な品質次元を1つの数値にまとめることでデータセットの信頼性を表し、時系列で追跡できる1つの複合的な数値を指します。

次のステップ