XML Parsing représente un défi pour le soi-disant texte analyseur en raison de l' extensibilité de XML. Conventions de formatage XML sont de nature hiérarchique , ce qui signifie des balises dominer les autres tags. Les expressions régulières ( regex ) identifier des modèles de texte XML - une expression régulière pour faire correspondre les balises XML correspondra tout à l'intérieur balises xml <> , mais ne s'affiche pas à l'organisation hiérarchique de ces tags. Il est possible de séparer cette structure de balise dans le texte en utilisant le langage de programmation Python et le paquet de boîte à outils du langage naturel, qui intègre les expressions régulières et la manipulation de texte et peut afficher les balises XML et leur organisation. Instructions
1
Ouvrez une fenêtre de terminal et tapez la commande " python -v " à l'invite de vérifier la présence et la version de Python sur votre ordinateur. Aller à la page d'accueil NLTK et télécharger le package d'installation NLTK approprié pour votre système d'exploitation. Vérifiez que NLTK est correctement installé en entrant la commande " >>> import NLTK " à l'invite de Python.
2
type ">>> nltk.download ()" pour ouvrir une fenêtre . Choisissez la ligne intitulée «tous» et cliquez sur le bouton de téléchargement . Ceci va télécharger un certain nombre de textes pour NLTK de travailler avec, parmi eux " Le Marchand de Venise " de Shakespeare formaté avec des balises XML spéciales pour les jeux.
3
Importer le Marchand de Venise marqués dans XML avec la commande suivante à l'invite de Python :
>>> merchant_file = nltk.data.find (« corpus /Shakespeare /merchant.xml ')
confier le dossier d'un variable de sorte que vous pouvez le manipuler avec commandes Python : .
>>> brut = open ( merchant_file ) read ()
Juste pour être sûr qu'il est là , saisissez le la commande suivante pour afficher les 168 premiers caractères : .
>>> print brut [ 0:168 ]
Vous verrez les balises d'en-tête XML et les balises spéciales de jeu XML < br > Hôtels 4
Entrez la commande suivante à l'invite de Python : >>>
de nltk.etree.ElementTree importation elementTree
et appuyez sur " Retour ", puis tapez la commande suivante à l' invite de Python : .
>>> marchand = elementTree () parse ( merchant_file )
la commande d'analyse permet à l' utilisateur de visualiser les balises XML et leur contenu . Pour construire une vue hiérarchique des balises XML imbriquées correctement , entrez la commande suivante à l'invite de Python :
>>> merchant.getchildren ()
Cela montrera tout le XML spécial jouer balises dans l'ordre hiérarchique. La sortie de cette commande devrait ressembler à ceci :
[ TITRE , PERSONAE , SCNDESCR de l'élément> à 22cc260> , PLAYSUBT de l'élément> à 22cc198> , < , la Loi de l'élément à 22cc0f8 > LOI SUR LA , ACT , ACT , ACT ]
< br > Photos