Lors de l'analyse des données, il est non seulement nécessaire d'avoir une assez grande quantité , mais il est également essentiel que la qualité des données est d'un niveau élevé . Les données peuvent être «sale» dans un certain nombre de façons - erreurs lors de la collecte , les erreurs commises lors de l'intégration de multiples ensembles de données et l'effacement accidentel ne sont que quelques unes de ces façons. Pour cette raison, il est important que les données soient nettoyés avant utilisation. Les données manquantes
procédures automatisées sont souvent utilisés pour trouver les données manquantes . Il peut s'agir de requêtes SQL dans une base de données ou d'analyses statistiques . En tant qu'analyste vous regardez des modèles dans la diffusion des données manquantes. Vous pouvez alors prendre des décisions sur ce qu'il faut faire, ce qui risque d'exclure certaines variables tout à fait, ou de remplacer leurs valeurs avec les moyennes . Parfois, les données manquantes peuvent indiquer des erreurs lors de l'intégration de plusieurs ensembles de données , et dans le pire des cas, l' ensemble du processus peut être répété pour obtenir toutes les données.
Aberrantes
< p> une valeur aberrante est une valeur de données qui est bien en dehors de la tendance générale des données. Ils peuvent être identifiés avec des graphiques , tels que les diagrammes en boîte ou en recherchant des valeurs d'un certain nombre d'écarts types de la moyenne. Une fois identifié , vous devez décider s'il faut supprimer ou non - qui consiste à décider si elles étaient des erreurs dans la collecte de données , ou les vraies valeurs . Parfois , vous pouvez choisir d'exécuter certaines procédures avec et sans les valeurs aberrantes , de comparer les résultats .
Erreurs de formatage
erreurs les plus banales dans un ensemble de données peut être des fautes d'orthographe ou d'autres erreurs similaires. Les requêtes peuvent être utilisés pour rechercher et remplacer des erreurs évidentes telles que les fautes d'orthographe des noms de marque ou des lieux , mais ils peuvent également être utilisés pour mettre en évidence les points de données qui pourraient avoir besoin de nettoyage . Par exemple, vous pouvez lancer une recherche de prénoms , numéros de téléphone ci-dessus et en dessous d'une certaine longueur, de localiser les erreurs qui se sont produites quelque part le long de la collecte des données et le processus d'intégration.
Codage des données
< br >
Il est fréquent que les données soient d'abord dans un format qui ne convient pas à l'analyse. Par exemple , les réponses de l'enquête peuvent avoir besoin d' être converti en un équivalent numérique , par exemple de «fortement en accord » à « 7 » ou variables catégorielles comme le sexe peuvent avoir besoin d' être converties en variables indicatrices binaires. C'est ce qu'on appelle le codage ou recodage , et il est de bonne pratique pour créer de nouvelles variables avec les nouvelles données codées plutôt que de remplacer les anciennes, de sorte que les erreurs peuvent être rétro- vérifiés.