Skip to main content

Data Quality Score क्या है?

एक data quality score आपके डेटा के स्वास्थ्य को एक ही संख्या में बदल देता है। जानें कि इसकी गणना कैसे की जाती है, अच्छा स्कोर क्या माना जाता है, और समय के साथ इसे कैसे ट्रैक करें।

Data Quality Score क्या है

एक data quality score एक ही संख्या है जो सारांशित करती है कि आपका डेटा अपने इच्छित उपयोग के लिए कितना उपयुक्त है। “क्या हमारा डेटा अच्छा है?” पूछने और एक अस्पष्ट उत्तर पाने के बजाय, एक स्कोर इस प्रश्न को एक आँकड़े में बदल देता है — आमतौर पर 0 से 100 तक प्रतिशत — जिसे आप ट्रैक, तुलना और कार्रवाई कर सकते हैं।

स्कोर को कभी-कभी data reliability score भी कहा जाता है। दोनों नाम एक ही चीज़ का वर्णन करते हैं: एक समग्र माप जो कई अंतर्निहित गुणवत्ता जाँचों को एक मुख्य संख्या में समेटता है।

अपने आप में एक स्कोर लक्ष्य नहीं है। इसका मूल्य वह है जो यह आपको करने देता है: एक आधार रेखा निर्धारित करें, गिरावट पर नज़र रखें, और साबित करें कि सुधार कार्य फल दे रहा है।

एक ही संख्या क्यों मायने रखती है

कच्ची गुणवत्ता जाँचें दर्जनों अलग-अलग संकेत उत्पन्न करती हैं — fill rates, duplicate counts, format errors, stale records। अपने आप में इन्हें संप्रेषित करना कठिन और नज़रअंदाज़ करना आसान है। एक ही स्कोर एक साथ तीन समस्याएँ हल करता है:

समस्याएक स्कोर इसे कैसे हल करता है
कोई साझा भाषा नहींएक संख्या जिसे विश्लेषकों से लेकर अधिकारियों तक हर कोई समझता है
प्रगति ट्रैक करने का कोई तरीका नहींएक ट्रेंड लाइन जो दिखाती है कि गुणवत्ता सुधर रही है या फिसल रही है
प्राथमिकता तय करने का कोई तरीका नहींएक विश्लेषण जो सबसे कमज़ोर आयाम या फ़ील्ड की ओर इशारा करता है

स्कोर मुख्य आँकड़ा है। इसके पीछे का विश्लेषण वह है जिस पर आप कार्रवाई करते हैं।

Data Quality Score की गणना कैसे की जाती है

एक data quality score व्यक्तिगत गुणवत्ता आयामों का भारित औसत है। गणना तीन चरणों में होती है।

चरण 1: प्रत्येक आयाम को मापें

प्रत्येक आयाम को एक pass rate के रूप में मापा जाता है — उन रिकॉर्ड या मानों का हिस्सा जो एक परिभाषित नियम को संतुष्ट करते हैं।

आयामयह क्या मापता हैउदाहरण नियम
Completenessआवश्यक डेटा मौजूद हैअनिवार्य fields भरे हुए हैं
Validityडेटा एक प्रारूप के अनुरूप हैEmail addresses एक वैध पैटर्न से मेल खाते हैं
Uniquenessकोई डुप्लिकेट रिकॉर्ड नहींप्रति ग्राहक एक रिकॉर्ड
Timelinessडेटा वर्तमान है90 दिनों के भीतर अपडेट किए गए रिकॉर्ड
Consistencyमान एकसमान हैंदेश “USA” के रूप में संग्रहीत, कभी “US” नहीं

प्रत्येक पर गहराई से नज़र डालने के लिए, देखें पाँच आयाम

चरण 2: Weights लागू करें

हर आयाम समान रूप से मायने नहीं रखता। एक weight यह दर्शाता है कि कोई आयाम व्यवसाय के लिए कितना महत्वपूर्ण है, और weights का योग 100% होता है।

आयामPass RateWeightयोगदान
Completeness92%30%27.6
Validity88%25%22.0
Uniqueness99%20%19.8
Timeliness75%15%11.3
Consistency90%10%9.0
कुल100%89.7

चरण 3: एक स्कोर में संयोजित करें

योगदानों को अंतिम आँकड़े में जोड़ा जाता है। ऊपर दिए गए उदाहरण में, data quality score 100 में से 89.7 है।

सामान्य सूत्र है:

Data Quality Score = Σ (Dimension Pass Rate × Dimension Weight)

क्योंकि स्कोर भारित है, समान कच्चे डेटा वाले दो संगठन अलग-अलग स्कोर रिपोर्ट कर सकते हैं यदि वे आयामों को अलग-अलग weight देते हैं — और यह जानबूझकर है। Weights यह encode करते हैं कि आपके व्यवसाय के लिए “अच्छा” का क्या अर्थ है।

माप के स्तर

रिपोर्टिंग के लिए एक संगठन-व्यापी स्कोर उपयोगी है, लेकिन असली काम तब होता है जब आप इसे विभाजित कर सकते हैं।

स्तरयह किस प्रश्न का उत्तर देता हैउपयोग
Org / datasetकुल मिलाकर हमारा डेटा कितना स्वस्थ है?कार्यकारी रिपोर्टिंग, ट्रेंड ट्रैकिंग
Object / tableकौन सी इकाई स्कोर को नीचे खींच रही है?Remediation को प्राथमिकता देना
Fieldवास्तव में कौन सा column समस्या है?लक्षित सुधार और validation rules

89.7 का स्कोर 40% completeness वाले एक ही field को छुपा सकता है। Field-स्तरीय विभाजन एक अस्पष्ट संख्या को एक विशिष्ट to-do सूची में बदल देते हैं।

अच्छा स्कोर क्या माना जाता है

कोई सार्वभौमिक pass mark नहीं है। सही लक्ष्य इस बात पर निर्भर करता है कि डेटा का उपयोग किस लिए किया जाता है — वही “उद्देश्य के लिए उपयुक्त” सिद्धांत जो सामान्य रूप से डेटा गुणवत्ता को रेखांकित करता है।

स्कोर सीमाव्याख्याविशिष्ट उपयोग
95–100%भरोसेमंदग्राहक-सामना करने वाला और विनियमित डेटा
85–94%विश्वसनीयसामान्य परिचालन डेटा
70–84%ध्यान देने की आवश्यकताआंतरिक या द्वितीयक डेटा
70% से नीचेभरोसेमंद नहींइस पर निर्भर रहने से पहले remediate करें

सीमा को गलत होने की लागत से निर्धारित करें। एक field जो billing या compliance को feed करती है, उसे कभी-कभार आंतरिक lookups के लिए उपयोग की जाने वाली field की तुलना में उच्च मानक की आवश्यकता होती है।

समय के साथ स्कोर को ट्रैक करना

एक बार मापा गया स्कोर एक स्नैपशॉट है। बार-बार मापा गया, यह एक ट्रेंड बन जाता है — और ट्रेंड ही वह जगह है जहाँ मूल्य है।

  • Point-in-time स्कोर इसका उत्तर देते हैं “आज हम कहाँ खड़े हैं?”
  • Continuous स्कोर इसका उत्तर देते हैं “क्या हम बेहतर हो रहे हैं या बदतर?”

CRM और परिचालन डेटा मैन्युअल प्रविष्टि, integrations और समय बीतने के माध्यम से लगातार क्षय होता है, इसलिए एक स्कोर जो पिछली तिमाही में स्वस्थ दिखता था, चुपचाप फिसल सकता है। निर्धारित पुनः-माप गिरावट को जल्दी पकड़ता है, इससे पहले कि वह किसी रिपोर्ट या AI मॉडल तक पहुँचे।

Salesforce में Data Quality Score

Salesforce के भीतर, वही मॉडल लागू होता है: आयामों को Accounts, Contacts और Leads जैसे objects में मापा जाता है, weight किया जाता है, और एक ही स्कोर में समेटा जाता है जिसे आप एक dashboard पर मॉनिटर कर सकते हैं।

DQS (Data Quality Score) इसे मूल रूप से मापता है — कोई डेटा export नहीं — पाँच आयामों में, और AI तत्परता के लिए PII detection जोड़ता है। यह देखने के लिए कि स्कोर कैसे बनाया जाता है और किसी CRM के अंदर कैसे पढ़ा जाता है, यहाँ जारी रखें:

अक्सर पूछे जाने वाले प्रश्न

Data quality score क्या है?

एक data quality score एक ही संख्या है, जिसे आमतौर पर 0 से 100 तक प्रतिशत के रूप में व्यक्त किया जाता है, जो सारांशित करती है कि आपका डेटा अपने इच्छित उपयोग के लिए कितना उपयुक्त है। इसकी गणना completeness, validity, uniqueness, timeliness और consistency जैसे व्यक्तिगत गुणवत्ता आयामों के भारित औसत के रूप में की जाती है।

Data quality score की गणना कैसे की जाती है?

प्रत्येक गुणवत्ता आयाम को एक pass rate के रूप में मापा जाता है — उन रिकॉर्ड या मानों का हिस्सा जो एक परिभाषित नियम को पूरा करते हैं। फिर उन आयाम स्कोरों को एक भारित औसत में संयोजित किया जाता है, जहाँ प्रत्येक आयाम का weight यह दर्शाता है कि वह व्यवसाय के लिए कितना महत्वपूर्ण है। परिणाम 0 और 100 के बीच एक ही प्रतिशत होता है।

अच्छा data quality score क्या है?

कोई सार्वभौमिक pass mark नहीं है, क्योंकि सही लक्ष्य इस बात पर निर्भर करता है कि डेटा का उपयोग किस लिए किया जाता है। अंगूठे के नियम के रूप में, ग्राहक-सामना करने वाले और विनियमित डेटा के लिए 95% या उससे अधिक की अपेक्षा की जाती है, सामान्य परिचालन डेटा के लिए 85% या उससे अधिक स्वीकार्य है, और 70% से नीचे कुछ भी ऐसे डेटा का संकेत देता है जिसे भरोसा करने से पहले remediation की आवश्यकता होती है।

क्या data quality score और data reliability score एक ही हैं?

हाँ। ये शब्द एक दूसरे के स्थान पर उपयोग किए जाते हैं। दोनों एक ही समग्र संख्या का वर्णन करते हैं जो यह व्यक्त करती है कि कोई डेटासेट कितना भरोसेमंद है, कई अंतर्निहित गुणवत्ता आयामों को एक ऐसे आँकड़े में जोड़कर जिसे आप समय के साथ ट्रैक कर सकते हैं।

अगले कदम