nettoyage de données - autrement connu comme le nettoyage de données ou le gommage - est le processus de détection et de correction d'erreurs , les incohérences et omissions dans les données . De grandes quantités de données sont collectées et analysées par des politiciens, des économistes et des scientifiques , mais des erreurs dans les données - ce qui peut affecter son traitement et les conclusions qui en sont tirées - sont monnaie courante et à prévoir. Il existe plusieurs méthodes de nettoyage des données , à la fois traditionnels et automatisés. Méthodes
méthodes statistiques statistiques peuvent être utilisés pour vérifier les données et corriger les erreurs de données, même complexe. Un statisticien peut analyser la moyenne , l'écart type et la gamme des valeurs de données et , ce faisant , identifier les enregistrements de base de données individuels ( tuples ) qui ne sont pas valides . Ces enregistrements peuvent être supprimés ou remplacés par une valeur statistique moyenne ou autre . Méthodes statistiques de nettoyage des données peuvent également indiquer les valeurs manquantes , ce qui peut être rempli avec des valeurs plausibles fondés sur le reste de l'ensemble de données .
Data Cleansing Outils
données outils de nettoyage existent depuis un certain nombre d'années . Automatisé de données des outils de nettoyage se concentrent généralement sur un domaine spécifique de base de données - qui définit les valeurs possibles que peuvent être saisies dans chaque champ ou attribut - comme le nom et les données d'adresse . Ils utilisent généralement un ensemble de règles de correspondance à partir d'une bibliothèque, ou fournis de manière interactive par l'utilisateur, afin de valider les noms des rues , des noms de villes et codes postaux et de transformer les données existantes en différents éléments, standard. Ils utilisent enregistrement correspondant pour déterminer si deux enregistrements représentent les données sur le même sujet et sont en mesure de combiner les individus enregistrements qui ont , par exemple, la même adresse. Les données des outils de nettoyage peuvent varier dans le niveau de sophistication à l'égard des données d'audit, de nettoyage et de migration.
ETL Tools
ETL est synonyme de " Extract, Transform , Load " et il ya de nombreux outils logiciels commerciaux conçus pour faciliter le processus ETL de nettoyage des données . Les caractéristiques importantes d'un outil ETL efficace est sa capacité à lire des données à la source directement et pour nettoyer et transformer des données , ainsi que son soutien aux métadonnées . Les métadonnées sont des documents ou des informations sur un morceau spécifique de données et peut aider un utilisateur à détecter les erreurs et les incohérences dans les données qui ne sont pas , nécessairement , être identifiés par l' outil ETL lui-même. Outils ETL fournissent généralement une bibliothèque de fonctions et de schémas pour transformer des données - données conversions de types , des fonctions arithmétiques, des fonctions de chaîne , etc - et peuvent extraire des données à partir de sources de données de forme libre , avec certaines restrictions, ainsi que par la norme ODBC ( " Open Database Connectivity ») et EDA (« Electronic Design Automation ») interfaces .