Le langage de programmation Python peut supporter 5 sites Web HTML à l'aide de la bibliothèque ' html5lib . Cette bibliothèque vous permet d'écrire des scripts Python qui analysent HTML 5 pages en utilisant une structure arborescente . Structures d'arbres sont des vues hiérarchiques des éléments de la page web. Accès aux éléments de la page Web s'effectue à l'aide d'une marchette arbre. L'arbre marcheur "avance " sur les connexions des nœuds de l'arbre , et peut parcourir toute l'arborescence . Vous pouvez utiliser Python avec ' html5lib ' pour ouvrir , afficher et imprimer un site web HTML 5. Choses que vous devez
Python 3.2 langage de programmation avec le module html5lib
Afficher plus Instructions
1
Ouvrez l'éditeur de texte IDLE dans Program Files (ou des applications pour Macintosh) dans la répertoire Python. Un fichier de code source vide s'ouvre
2
Importer le module « html5lib " par écrit les instructions suivantes au début du fichier de code source : .
Importation html5lib
< p > à partir de treebuilders d'importation html5lib , treewalkers , sérialiseur
import urllib2
3
Créer un nouveau parser HTML 5 , qui vous allez utiliser pour lire un site HTML. Déclarer un nouvel analyseur en écrivant ce qui suit:
parser = html5lib.HTMLParser ()
4
Ouvrez un site Web en passant son nom dans la fonction urllib2.urlopen . Par exemple, si vous voulez ouvrir " www.website_adddress.com ", écrivent ce qui suit: .
URL = urllib2.urlopen ( " http://www.website_address.com " ) read () < br >
5
Passez le site dans le HTML 5 analyseur pour recevoir une représentation arborescente . Sauvegarder cette représentation dans une variable appelée " arbre " par écrit la déclaration suivante:
arbre
= parser.parse (URL)
6
Créer un marcheur arbre comme ceci:
TreeWalker = treewalkers.getTreeWalker (« dom »)
7
Promenade à travers l'arbre en utilisant le marcheur arbre. L'arbre promeneur retournera un flux d'informations qu'il découvre dans le 5 site HTML. Pour marcher à travers l'arbre, écrire ce qui suit: flux de
= TreeWalker (arbre)
8
Sérialisez le flux de sorte que vous pouvez facilement sortir sur la console. Vous pouvez sérialiser le flux en utilisant les deux déclarations suivantes :
série = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False ) Sortie
= serial.serialize (stream)
9
itération sur la sortie sérialisée du flux comme ceci:
pour l'élément en sortie :
10
retrait de la ligne immédiatement après la déclaration précédente et écrire une fonction d'impression , comme ceci:
impression ( élément )
11
exécuter le programme en appuyant sur F5. Le script va ouvrir et ensuite analyser une page web HTML 5. Le script sérialise ensuite l'arborescence de la page et sort sur la console. La sortie varie en fonction de la page Web sélectionnée , mais elle peut ressembler à ceci :
Bienvenue à une page web !
Photos