erreurs peuvent être commises lors de la collecte et de l'intégration des données , et les analystes ont besoin de savoir comment identifier et de corriger ces erreurs. C'est ce qu'on appelle le nettoyage des données , ou le nettoyage de données . Ce n'est pas une science exacte, et parfois la décision de ce qu'il faut faire est basé sur le jugement de l'analyste , mais elle sait que non seulement il est important d'avoir une quantité suffisante de données - elle doit être d'une qualité digne de confiance , trop . Sémantique et formatage
données de tâche de nettoyage commun implique la suppression des erreurs de formatage. Cela pourrait être quelque chose d'aussi simple que de fautes d'orthographe faites lors de la collecte ou de saisie de données, à des problèmes avec le symbole utilisé pour séparer les entrées . Par exemple, imaginez le morceau suivant de données est à l'intérieur d'un ensemble de données où une apostrophe est utilisé pour séparer les entrées : Club'42 Beacon Street'Boston
la
de
ornithologues Ce serait lue comme suit: Photos
oiseaux WatchersClub42 Beacon StreetBoston
requêtes et des programmes automatisés sont souvent utilisés pour nettoyer les données de cette erreur .
intégration
Certains ensembles de données sont bien seul, mais deviennent problématiques quand ils sont intégrés dans un référentiel plus grand ou un entrepôt de données . Par exemple , l'âge peut être stocké comme date de naissance :
jj /mm /yymm /dd /yyyy
ou par plage :
20-30 , 30-40 , 40-5015-25 , 25-35 , 35-45
Dans certains cas, comme date de mise en forme à la naissance, il est assez simple d'identifier les structures sémantiques et de normaliser les entrées. Dans de tels cas cependant, les tranches d'âge , les hypothèses doivent être faites . Par exemple , le nombre de personnes âgées de 25-35 à la moyenne des personnes âgées de 20-30 et 30-40
aberrantes
valeurs aberrantes sont ? points de données qui se trouvent loin du reste des données. Par exemple, un âge de 600 , soit un score au test plusieurs fois supérieur à la moyenne . Dans le premier cas , vous pouvez supposer que c'était une erreur, mais dans le second, il n'est pas si évident . Quand vous ne savez pas si aberrante est une erreur ou un point de données légitime , c'est votre jugement s'il faut supprimer ou non, compte tenu de la finalité des données .
Données manquantes
Vous devez aussi décider quoi faire si aucune donnée ne manque. Tout d'abord, les modèles doivent être identifiés en utilisant des requêtes et des analyses statistiques - la distribution des données manquantes détermine ce que vous devriez faire. Par exemple, si un sondage en ligne a deux pages , mais seulement les questions sur la première page a été répondu , cette information peut être utilisée pour aider à affiner les formes. Si les données manquantes sont distribuées au hasard et se trouve sur la même variable , il est parfois possible de faire des estimations basées sur ce qui est déjà connu .