Comment utiliser html5lib en Python

programmation

C /C + + Programming

Computer Programming Languages

Delphi Programming

Programmation Java

Programmation JavaScript

PHP /MySQL Programmation

programmation Perl

Programmation Python

Ruby Programming

Visual Basics programmation

* Connaissances Informatiques >> programmation >> Programmation Python >> Content

Comment utiliser html5lib en Python

Le langage de programmation Python peut supporter 5 sites Web HTML à l'aide de la bibliothèque ' html5lib . Cette bibliothèque vous permet d'écrire des scripts Python qui analysent HTML 5 pages en utilisant une structure arborescente . Structures d'arbres sont des vues hiérarchiques des éléments de la page web. Accès aux éléments de la page Web s'effectue à l'aide d'une marchette arbre. L'arbre marcheur "avance " sur les connexions des nœuds de l'arbre , et peut parcourir toute l'arborescence . Vous pouvez utiliser Python avec ' html5lib ' pour ouvrir , afficher et imprimer un site web HTML 5. Choses que vous devez
Python 3.2 langage de programmation avec le module html5lib
Afficher plus Instructions
1

Ouvrez l'éditeur de texte IDLE dans Program Files (ou des applications pour Macintosh) dans la répertoire Python. Un fichier de code source vide s'ouvre
2

Importer le module « html5lib " par écrit les instructions suivantes au début du fichier de code source : .

Importation html5lib
< p > à partir de treebuilders d'importation html5lib , treewalkers , sérialiseur

import urllib2
3

Créer un nouveau parser HTML 5 , qui vous allez utiliser pour lire un site HTML. Déclarer un nouvel analyseur en écrivant ce qui suit:

parser = html5lib.HTMLParser ()
4

Ouvrez un site Web en passant son nom dans la fonction urllib2.urlopen . Par exemple, si vous voulez ouvrir " www.website_adddress.com ", écrivent ce qui suit: .

URL = urllib2.urlopen ( " http://www.website_address.com " ) read () < br >
5

Passez le site dans le HTML 5 analyseur pour recevoir une représentation arborescente . Sauvegarder cette représentation dans une variable appelée " arbre " par écrit la déclaration suivante:
arbre

= parser.parse (URL)
6

Créer un marcheur arbre comme ceci:

TreeWalker = treewalkers.getTreeWalker (« dom »)
7

Promenade à travers l'arbre en utilisant le marcheur arbre. L'arbre promeneur retournera un flux d'informations qu'il découvre dans le 5 site HTML. Pour marcher à travers l'arbre, écrire ce qui suit: flux de

= TreeWalker (arbre)
8

Sérialisez le flux de sorte que vous pouvez facilement sortir sur la console. Vous pouvez sérialiser le flux en utilisant les deux déclarations suivantes :

série = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False ) Sortie

= serial.serialize (stream)
9

itération sur la sortie sérialisée du flux comme ceci:

pour l'élément en sortie :
10

retrait de la ligne immédiatement après la déclaration précédente et écrire une fonction d'impression , comme ceci:

impression ( élément )
11

exécuter le programme en appuyant sur F5. Le script va ouvrir et ensuite analyser une page web HTML 5. Le script sérialise ensuite l'arborescence de la page et sort sur la console. La sortie varie en fonction de la page Web sélectionnée , mais elle peut ressembler à ceci :

Bienvenue à une page web !

Photos

Previous ： Mutagène Python Tutorial

next ： Comment faire pour tester pour la Intersection de deux lignes de Python

articles connexes

·	Comment lire Int partir d'un fichier en Python
·	Comment exécuter un fichier EXE Python Comme avec Pyth…
·	Comment faire pour changer la couleur d'un point de com…
·	Comment itérer sur les lignes de fichier en Python
·	Comment remplacer entiers négatifs dans un tableau Pyt…
·	Comment faire pour obtenir des valeurs clés en Python
·	Comment calculer le pourcentage en Python
·	Obtenir la longueur d'un tableau en Python
·	Comment construire un dictionnaire Python
·	Comment rechercher et remplacer avec Python

articles en vedette

·	Comment utiliser le complément à un un déplacement B…
·	Comment faire pivoter liens en JavaScript
·	Comment lire un flotteur binaire avec Python
·	Comment utiliser Text to Speech sur Android
·	Distinct MySQL Tutorial
·	Comment faire pour convertir AWT Swing
·	Comment utiliser PHP cURL page Sommaire Cordes
·	Comment utiliser l'instruction foreach en PHP
·	Comment forcer Java à chiffres ronds
·	Comment jeter Exception en Java