| maison  | Hardware  | réseaux  | programmation  | Logiciel  | Dépannage  | systèmes |  
programmation  
  • C /C + + Programming

  • Computer Programming Languages

  • Delphi Programming

  • Programmation Java

  • Programmation JavaScript

  • PHP /MySQL Programmation

  • programmation Perl

  • Programmation Python

  • Ruby Programming

  • Visual Basics programmation
  •  
    Connaissances Informatiques >> programmation >> Computer Programming Languages >> Content
    Comment faire pour créer une toile d'araignée
    A araignée est une application informatique qui télécharge une page Web , puis suit tous les liens sur cette page et téléchargements ainsi. Araignées Web sont utilisés pour stocker des sites Web pour une lecture hors ligne , ou pour le stockage des pages web dans les bases de données qui seront utilisées par un moteur de recherche . Création d'une toile d'araignée est une tâche difficile , adapté à une classe de programmation de niveau collégial . Ces instructions supposent que vous avez une expérience de programmation solide, mais pas connaissance de l'architecture araignée. Les étapes exposent une architecture très spécifique pour écrire une toile d'araignée dans la langue choisie. Choses que vous devez
    navigateur Web qui répond aux commandes de programmation
    langage de programmation d'accès en écriture sur le disque et les fonctions de base de données
    Afficher plus Instructions
    1

    initialiser votre programme avec la page Web initiale que vous souhaitez télécharger . Ajoutez l'URL de cette page à un nouvelle table de base de données d'URL.
    2

    Envoyer une commande au navigateur lui ordonnant de récupérer cette page Web et enregistrez-le sur un disque. Déplacez le pointeur de la base de données avancer d'un pas passé l'URL que vous venez de télécharger , qui va maintenant pointer vers la fin de la table.
    3

    Lire la page Web dans le programme, et l'analyser pour des liens vers des pages Web supplémentaires . Cela se fait habituellement par la recherche de la chaîne de texte «http://» et capturer le texte entre cette chaîne et un caractère de fin (comme "", " . " Ou " >") . Ajoutez ces liens à la table de base de données d'URL , le pointeur de la base de données devrait rester au-dessus de cette nouvelle liste
    4

    tester les entrées de la table de base de données d'unicité , et éliminer toutes les URL qui apparaissent plus d'une fois . .
    5

    Si vous souhaitez appliquer un filtre d'URL ( par exemple, pour empêcher le téléchargement des pages de sites à des domaines différents ) , s'applique maintenant à la table de base de données d'URL et de supprimer toutes les URL que vous ne souhaitez pas à télécharger.
    6

    Mettre en place une boucle de programmation afin que votre araignée revient à l'étape 2 ci-dessus . Cette façon récursive télécharger toutes les URL de votre araignée rencontre . Retrait URL en double assure que l'araignée va bien terminer quand il atteint la dernière URL unique.

    Previous :

    next :
      articles connexes
    ·Quel est le logiciel SQL 
    ·Comment construire des applications client-serveur avec…
    ·Les utilisations des logarithmes dans Informatique 
    ·Comment faire pour supprimer les valeurs nulles d'un ta…
    ·Comment réinstaller IE6 utilisant Regedit 
    ·Qu'est-ce que l'API de programmation 
    ·Quel est le format Silverlight 
    ·Comment faire pour envoyer des données de formulaire H…
    ·Comment imprimer des images avec AS3 
    ·Comment HOTLink utilisant FBML 
      articles en vedette
    ·Comment faire pour utiliser Visual Basic 
    ·Comment savoir Rational Rose 
    ·Comment se débarrasser des avertissements de certifica…
    ·Comment écrire un programme qui rafraîchira l'Explora…
    ·Comment se connecter à plusieurs bases de données en …
    ·Comment mettre en cache Javascript externe 
    ·Comment faire pour supprimer le curseur sur les applets…
    ·Comment mettre à jour une déclaration avec une sous-r…
    ·Comment faire pour convertir une zone de texte à un In…
    ·Comment modifier le Registre en Vb.Net 
    Copyright © Connaissances Informatiques http://fr.wingwit.com