A araignée est une application informatique qui télécharge une page Web , puis suit tous les liens sur cette page et téléchargements ainsi. Araignées Web sont utilisés pour stocker des sites Web pour une lecture hors ligne , ou pour le stockage des pages web dans les bases de données qui seront utilisées par un moteur de recherche . Création d'une toile d'araignée est une tâche difficile , adapté à une classe de programmation de niveau collégial . Ces instructions supposent que vous avez une expérience de programmation solide, mais pas connaissance de l'architecture araignée. Les étapes exposent une architecture très spécifique pour écrire une toile d'araignée dans la langue choisie. Choses que vous devez
navigateur Web qui répond aux commandes de programmation
langage de programmation d'accès en écriture sur le disque et les fonctions de base de données
Afficher plus Instructions
1
initialiser votre programme avec la page Web initiale que vous souhaitez télécharger . Ajoutez l'URL de cette page à un nouvelle table de base de données d'URL.
2
Envoyer une commande au navigateur lui ordonnant de récupérer cette page Web et enregistrez-le sur un disque. Déplacez le pointeur de la base de données avancer d'un pas passé l'URL que vous venez de télécharger , qui va maintenant pointer vers la fin de la table.
3
Lire la page Web dans le programme, et l'analyser pour des liens vers des pages Web supplémentaires . Cela se fait habituellement par la recherche de la chaîne de texte «http://» et capturer le texte entre cette chaîne et un caractère de fin (comme "", " . " Ou " >") . Ajoutez ces liens à la table de base de données d'URL , le pointeur de la base de données devrait rester au-dessus de cette nouvelle liste
4
tester les entrées de la table de base de données d'unicité , et éliminer toutes les URL qui apparaissent plus d'une fois . .
5
Si vous souhaitez appliquer un filtre d'URL ( par exemple, pour empêcher le téléchargement des pages de sites à des domaines différents ) , s'applique maintenant à la table de base de données d'URL et de supprimer toutes les URL que vous ne souhaitez pas à télécharger.
6
Mettre en place une boucle de programmation afin que votre araignée revient à l'étape 2 ci-dessus . Cette façon récursive télécharger toutes les URL de votre araignée rencontre . Retrait URL en double assure que l'araignée va bien terminer quand il atteint la dernière URL unique.