moteurs de recherche, comme Google ou Yahoo! , tirez pages Web dans les résultats de recherche en utilisant les robots collecteurs de Web ( parfois aussi appelé araignées ou robots ) , qui sont des programmes qui scannent les sites Internet et d'index dans une base de données . Bots Web peuvent être faites en utilisant la plupart des langages de programmation, dont C , Perl , Python et PHP , qui permettent aux ingénieurs de logiciels d'écrire des scripts qui exécutent des tâches procédurales, telles que l'analyse Web et de l'indexation . Instructions
1
Ouvrez un texte demande plaine d'édition, tel que Notepad , qui est fourni avec Microsoft Windows ou TextEdit de Mac OS X , où vous voulez auteur d'une application Web Bot Python.
< Br > 2
Lancer le script Python en incluant les lignes de code suivantes , et en remplaçant l'exemple URL par l'URL du site que vous souhaitez numériser et le nom de la base de données exemple avec la base de données qui sera stocker les résultats :
import urllib2 , ré, stringenter_point = ' http://www.exampleurl.com ' database = ' example.sql '
3
inclure les lignes suivantes de code à définir la séquence d'opérations que le bot Web suivra :
def uniq (SEQ ): set = {} carte ( set.__setitem__ , SEQ , []) set.keys de retour ()
< br > 4
obtenir le URL dans la structure du site en utilisant les lignes de code suivantes:
def geturls (URL): items = [] = demande urllib2.Request (url) request.add.header ( 'User' ), contenu » Bot_name ;) '= urllib2.urlopen ( demande) . read () = articles re.findall ( ' href = " http://. ? "', contenu) urls = [] retour urls
5
Définir la base de données que le bot Web utilisera et précise quelles informations il doit stocker pour compléter rendre le Web Bot :
db = open ( database , 'a') allurls = uniq ( geturls ( enter_point ) )
6
Enregistrez le document texte et de le transférer vers un serveur ou un ordinateur avec une connexion Internet où vous pouvez exécuter le script et commencer numérisation de pages Web .