La puissance de traitement des ordinateurs permet aux chercheurs et aux entreprises d' analyser les données de façon plus complexe que jamais. L'exploration de données est le processus de tenter de trouver des informations utiles dans des ensembles de données volumineux. Processus ETL Data mining se réfère aux étapes par lesquelles des données sont enregistrées , codées et écrit à une base de données pour analyse ultérieure. Définitions
exploration de données est définie comme le processus d'analyse des données et l'agrégation en informations qui peuvent être mises aux fins utiles. Le processus d'extraction de données implique de trouver des modèles dans des ensembles de données qui fournissent des informations sur la façon catégorique l'ensemble de données est organisée . L'exploration de données peut être utilisée pour analyser la relation entre presque toutes les variables mesurables ; quelques applications du monde réel de l'extraction de données comprennent l'analyse des stratégies de marketing , les processus de production et les tendances comportementales humaines. Le terme ETL est un acronyme pour extraire, transformer et charger. Extraire, transformer et charger référer aux trois processus par lequel un système de base de données est créée pour analyse.
Extraction
La première étape dans la création d' un entrepôt de données qui peut être minées pour l'analyse consiste à extraire les données à partir de sa source d'origine . Les méthodes d'extraction varient selon le type de données qui sont exploitées . Parfois extraction consiste à localiser et récupérer un sous-ensemble des données d'une ou plusieurs bases de données existantes . Dans d'autres cas , le processus d'extraction nécessite des recherches originales telles que la recherche sur le Web des sites qui contiennent des informations pertinentes.
Transform
Une fois que des données appropriées sont situés en le processus d'extraction alors que les données doivent être manipulées de sorte qu'il peut être stocké dans une base de données pour une analyse ultérieure . Le processus de modification des données de sa forme originale à une forme régularisée est appelé transformation. La transformation peut impliquer un certain nombre de modifications apportées aux données , y compris des fonctions relativement simples telles que la conversion des lettres en minuscules et en supprimant les signes de ponctuation à partir de chaînes de caractères. Le processus de transformation peut également inclure des procédures plus complexes comme exerçant des fonctions arithmétiques sur les valeurs de la source , le tri des données et la vérification de la validité des données sources. L'objectif de la phase de transformation consiste à prendre les données d'extraction non raffinés et le transformer en données utiles pour les objectifs du projet d'exploration de données .
Charge
fois les données sont transformées dans le format approprié , il doit être stocké dans un entrepôt de données . La phase de charge se réfère au processus par lequel transforme les données sont enregistrées dans une base de données informatique . Une fois que les informations sont stockées dans la base de données , il peut être soumis à une analyse qualitative et quantitative pour rechercher des modèles d'intérêt .