데이터 품질 점수란
데이터 품질 점수는 데이터가 본래의 목적에 얼마나 적합한지를 요약하는 단일 숫자입니다. “우리 데이터가 좋은가?”라고 묻고 모호한 답을 얻는 대신, 점수는 이 질문을 추적하고, 비교하고, 실행에 옮길 수 있는 하나의 수치 — 보통 0에서 100까지의 백분율 — 로 바꿉니다.
이 점수는 때때로 **데이터 신뢰성 점수(data reliability score)**라고도 불립니다. 두 이름 모두 동일한 것을 설명합니다. 즉, 여러 기저 품질 검사를 하나의 대표 숫자로 묶은 종합 측정값입니다.
점수 자체가 목표는 아닙니다. 그 가치는 점수가 가능하게 하는 것에 있습니다. 즉, 기준선을 설정하고, 저하를 감시하며, 개선 작업이 성과를 내고 있음을 입증하는 것입니다.
단일 숫자가 중요한 이유
원시 품질 검사는 수십 개의 개별 신호 — 충족률, 중복 개수, 형식 오류, 오래된 레코드 — 를 생성합니다. 이들은 그 자체로는 전달하기 어렵고 무시하기 쉽습니다. 단일 점수는 세 가지 문제를 한 번에 해결합니다.
| 문제 | 점수가 해결하는 방법 |
|---|---|
| 공통 언어 부재 | 분석가부터 경영진까지 모두가 이해하는 하나의 숫자 |
| 진행 상황을 추적할 방법 부재 | 품질이 개선되는지 악화되는지를 보여주는 추세선 |
| 우선순위를 정할 방법 부재 | 가장 취약한 차원이나 필드를 가리키는 세부 분석 |
점수는 헤드라인입니다. 그 뒤에 있는 세부 분석이 실행의 대상입니다.
데이터 품질 점수를 계산하는 방법
데이터 품질 점수는 개별 품질 차원의 가중 평균입니다. 계산은 세 단계로 이루어집니다.
1단계: 각 차원 측정
각 차원은 충족률, 즉 정의된 규칙을 만족하는 레코드 또는 값의 비율로 측정됩니다.
| 차원 | 측정 내용 | 예시 규칙 |
|---|---|---|
| 완전성(Completeness) | 필수 데이터가 존재함 | 필수 필드가 채워져 있음 |
| 유효성(Validity) | 데이터가 형식에 부합함 | 이메일 주소가 유효한 패턴과 일치함 |
| 고유성(Uniqueness) | 중복 레코드 없음 | 고객당 하나의 레코드 |
| 적시성(Timeliness) | 데이터가 최신 상태임 | 레코드가 90일 이내에 업데이트됨 |
| 일관성(Consistency) | 값이 균일함 | 국가가 “US”가 아닌 “USA”로 저장됨 |
각 차원에 대한 자세한 내용은 다섯 가지 차원을 참조하십시오.
2단계: 가중치 적용
모든 차원이 똑같이 중요한 것은 아닙니다. 가중치는 한 차원이 비즈니스에 얼마나 중요한지를 반영하며, 가중치의 합은 100%가 됩니다.
| 차원 | 충족률 | 가중치 | 기여도 |
|---|---|---|---|
| 완전성 | 92% | 30% | 27.6 |
| 유효성 | 88% | 25% | 22.0 |
| 고유성 | 99% | 20% | 19.8 |
| 적시성 | 75% | 15% | 11.3 |
| 일관성 | 90% | 10% | 9.0 |
| 합계 | 100% | 89.7 |
3단계: 하나의 점수로 결합
기여도를 합산하여 최종 수치를 만듭니다. 위 예시에서 데이터 품질 점수는 100점 만점에 89.7점입니다.
일반적인 공식은 다음과 같습니다.
데이터 품질 점수 = Σ (차원 충족률 × 차원 가중치)
점수가 가중치를 적용받기 때문에, 동일한 원시 데이터를 가진 두 조직이 차원에 가중치를 다르게 부여하면 서로 다른 점수를 보고할 수 있습니다. 그리고 이는 의도된 것입니다. 가중치는 당신의 비즈니스에서 “좋음”이 무엇을 의미하는지를 인코딩합니다.
측정 수준
조직 전체를 아우르는 단일 점수는 보고에 유용하지만, 실제 작업은 그것을 세분화할 수 있을 때 일어납니다.
| 수준 | 답하는 질문 | 용도 |
|---|---|---|
| 조직 / 데이터셋 | 우리 데이터는 전반적으로 얼마나 건강한가? | 경영진 보고, 추세 추적 |
| 오브젝트 / 테이블 | 어떤 엔터티가 점수를 끌어내리고 있는가? | 개선 우선순위 결정 |
| 필드 | 정확히 어떤 컬럼이 문제인가? | 표적화된 수정 및 유효성 검사 규칙 |
89.7점은 완전성이 40%에 불과한 단일 필드를 숨기고 있을 수 있습니다. 필드 수준의 세부 분석은 모호한 숫자를 구체적인 할 일 목록으로 바꿉니다.
무엇이 좋은 점수로 간주되는가
보편적인 합격 기준은 없습니다. 올바른 목표는 데이터가 무엇에 사용되는지에 따라 달라집니다. 이는 일반적으로 데이터 품질을 뒷받침하는 동일한 “목적 적합성” 원칙입니다.
| 점수 범위 | 해석 | 일반적 용도 |
|---|---|---|
| 95–100% | 신뢰함 | 고객 대면 및 규제 데이터 |
| 85–94% | 안정적임 | 일반 운영 데이터 |
| 70–84% | 주의 필요 | 내부 또는 보조 데이터 |
| 70% 미만 | 신뢰할 수 없음 | 의존하기 전에 개선 필요 |
임계값은 틀렸을 때의 비용을 기준으로 설정하십시오. 청구나 컴플라이언스에 공급되는 필드는 가끔씩 내부 조회에 사용되는 필드보다 더 높은 기준이 필요합니다.
시간에 따라 점수 추적하기
한 번 측정한 점수는 스냅샷입니다. 반복적으로 측정하면 추세가 되며, 가치는 바로 그 추세에 있습니다.
- 시점(point-in-time) 점수는 “오늘 우리는 어디에 있는가?”에 답합니다.
- 지속적(continuous) 점수는 “우리는 더 나아지고 있는가, 나빠지고 있는가?”에 답합니다.
CRM 및 운영 데이터는 수동 입력, 통합, 그리고 시간의 흐름을 통해 지속적으로 저하되므로, 지난 분기에는 건강해 보였던 점수가 조용히 미끄러질 수 있습니다. 예약된 재측정은 저하가 보고서나 AI 모델에 도달하기 전에 초기에 이를 포착합니다.
Salesforce에서의 데이터 품질 점수
Salesforce 내부에서도 동일한 모델이 적용됩니다. 차원은 Account, Contact, Lead와 같은 오브젝트에 걸쳐 측정되고, 가중치가 부여되며, 대시보드에서 모니터링할 수 있는 단일 점수로 묶입니다.
DQS(Data Quality Score)는 데이터 내보내기 없이 다섯 가지 차원에 걸쳐 이를 네이티브로 측정하며, AI 준비를 위한 PII 탐지를 추가합니다. 점수가 어떻게 구성되고 CRM 안에서 어떻게 읽히는지 보려면 다음으로 계속 진행하십시오.
- Salesforce에서 데이터 품질을 측정하는 방법 — Salesforce 조직에 적용된 점수로, 데이터 신뢰성 점수라고도 합니다
- Salesforce 데이터 품질 대시보드 — 대표 숫자와 함께 추적할 만한 메트릭
- Salesforce에서의 데이터 품질 — 더 넓은 그림
자주 묻는 질문
데이터 품질 점수란 무엇인가?
데이터 품질 점수는 데이터가 본래의 목적에 얼마나 적합한지를 요약하는 단일 숫자로, 일반적으로 0에서 100까지의 백분율로 표현됩니다. 완전성, 유효성, 고유성, 적시성, 일관성과 같은 개별 품질 차원의 가중 평균으로 계산됩니다.
데이터 품질 점수는 어떻게 계산하는가?
각 품질 차원은 충족률, 즉 정의된 규칙을 만족하는 레코드 또는 값의 비율로 측정됩니다. 그런 다음 이러한 차원 점수는 가중 평균으로 결합되며, 각 차원의 가중치는 그것이 비즈니스에 얼마나 중요한지를 반영합니다. 결과는 0에서 100 사이의 단일 백분율입니다.
좋은 데이터 품질 점수란 무엇인가?
올바른 목표는 데이터가 무엇에 사용되는지에 따라 달라지기 때문에 보편적인 합격 기준은 없습니다. 경험칙으로, 고객 대면 및 규제 데이터에는 95% 이상이 요구되고, 일반 운영 데이터에는 85% 이상이 허용되며, 70% 미만은 신뢰하기 전에 개선이 필요한 데이터를 의미합니다.
데이터 품질 점수는 데이터 신뢰성 점수와 같은가?
예. 두 용어는 서로 바꿔 사용됩니다. 둘 다 여러 기저 품질 차원을 하나의 수치로 결합하여 데이터셋이 얼마나 신뢰할 수 있는지를 시간에 따라 추적할 수 있도록 표현하는 단일 종합 숫자를 설명합니다.
다음 단계
- CRM에서 측정하기: Salesforce에서 데이터 품질을 측정하는 방법
- 입력 요소 이해하기: 다섯 가지 차원
- 기초부터 시작하기: 데이터 품질이란 무엇인가?
- 당신의 데이터를 벤치마킹하기: AI 준비 평가를 통해 3분 만에 점수를 확인하십시오