Grattage et l'analyse sont deux pratiques données minières de site Web étroitement liés . Le plus générale , l'analyse, se réfère à briser données en ses parties constituantes . Lorsque votre intermédiaire professeur d'anglais vous a demandé des peines de diagramme, vous analysez les paroles de ces peines pour leurs parties du discours. Grattage plus spécifiquement référence à l'analyse des pages web pour certains types de données , dans ce cas , les adresses . Le langage de programmation Python et l'extension " BeautifulSoup " permettent à l'utilisateur de gratter et analyser sites Web en quelques lignes de code. Choses que vous devez
Python 2.6 ou supérieur
BeautifulSoup 3,2
Voir Plus Instructions
1
Installez BeautifulSoup en téléchargeant la dernière version du logiciel minable et Déballez /décompressez le fichier . Ouvrez une fenêtre de terminal et tapez la commande suivante: My- iMac : ~ moi $ python setup.py install Downloads/BeautifulSoup-3.2.0/python
Cela indique à l' interpréteur Python pour exécuter le script d'installation de BeautifulSoup qui peut être trouvé dans le dossier BeautfulSoup , qui est dans le dossier Téléchargements
2
type Python à l'invite , appuyez sur le retour et l'importation BeautifulSoup : . My- iMac : ~ moi $ python >>> import BeautifulSoup
3
exécutez le script suivant pour ouvrir une page web et imprimer les Universal Resource Locators (adresses web ), vous pourriez trouver dans une page : >>> import urllib2 >> ; > page = urllib2.urlopen ( "URL http://www.THE VOUS VOULEZ ICI pour gratter ») >>> soupe = BeautifulSoup (page ) >>> soup.findAll ('a ») >>> soup.strip de print () >>> scénario IMPRIMERCETTE va ouvrir une page Web , d'analyser le code HTML , recherchez la balise dans lequel les adresses web sont intégrés , enlever les balises et laisser le texte .