entrepôt de données et des outils d'exploration de données , il est facile à extraire et analyser d'énormes volumes d'information , mais la qualité de l'analyse est seulement aussi bon que la qualité des données. La première étape de tout projet de recherche ou d'un projet d'entreposage de données doit être une évaluation de la qualité des données allant dans le projet. Mesures pour l'exhaustivité , la validité et la cohérence tout facteur dans cette évaluation . Pour établir des statistiques sur la qualité des données , vous devez suivre certaines étapes . Instructions
1
élaborer un cadre de mesure de la qualité des données. Créer un espace dans chaque base de données où les résultats des contrôles de qualité peuvent être stockés. Élaborer des rapports ou tableaux de bord à partir de ces données.
2
intégralité des données de mesure . Choisissez des éléments clés dans chaque base de données et de compter le pourcentage de valeurs nulles , les champs vides ou des valeurs représentant des données disponibles ou inconnu.
3 pourcentages de mesure
de valeurs autorisées. Lorsqu'un champ a un certain nombre de valeurs de code prédéfinis , de mesurer la distribution de ces valeurs par rapport au nombre de valeurs incorrectes ou manquantes . Analyser ces distributions afin de déterminer si certains codes apparaissent trop souvent. Si c'est le cas , cette valeur peut être nécessaire de subdiviser pour fournir une meilleure description. Par exemple, si les réponses sont en noir , blanc et couleur et 98 % des réponses sont en couleur , il peut être judicieux de remplacer la couleur de rouge, bleu ou vert.
4
Vérification des valeurs raisonnables. Mesures numériques apparaissent habituellement dans une plage autorisée . Par exemple, une température météorologiques mesure quotidienne Fahrenheit apparaît généralement comme une valeur d'environ -40 à 120 . Toute valeur en dehors de cette fourchette n'est probablement pas valide.
5
comparer les valeurs dans le même dossier pour la cohérence. Si la température était de 90 degrés Fahrenheit et la valeur des précipitations de la neige , l'une des deux valeurs est probablement incorrecte .
6
vérifier la cohérence entre les documents connexes . Utilisez les contrôles de cohérence similaires entre les enregistrements de la relation parent -enfant et dans de multiples entrées enfants . Parent et les relations de l'enfant sont les liens entre les éléments de base de données . Par exemple, dans un certain nombre d'éléments liés au temps , si un ensemble de mesures Température horaire liste températures en augmentation constante de 50 à 70 degrés tout au long de la matinée , mais le 10 heures de lecture est de -20 , cette valeur est probablement une erreur.
7
créer des rapports, tableaux de bord ou des notifications sur la base des données recueillies. Résumez en groupe , fournisseur ou un client de type organisationnel avec des capacités pour descendre à des éléments de données spécifiques. Analyser les données pour déterminer où les erreurs se produisent et ce qui peut être fait pour améliorer la qualité des données .
8
améliorer la qualité des données. Réviser les règles de gestion , logiciel de réparation de rejeter de mauvaises données , informer les clients sur les questions de données et de trouver des moyens de récompenser les initiatives de qualité . Le suivi de ces mesures dans le temps.