Robots , dans le contexte de l'Internet signifie logiciel qui numériser un site web pour recueillir des informations . Ce ne sont pas des virus - Il n'ya pas de code placé sur votre machine, et lorsque le robot est fini avec votre site web, il n'existe aucune preuve que le robot était là. Le processus de collecte de l'information n'est pas nécessairement nuisible - vous pourriez bénéficier de la visite. The Robots Exclusion Protocol (REP ) vous permet d'avoir un certain contrôle sur le processus. Histoire
L'idée REP a commencé en 1994 avec un groupe lecteur robot ( robots-request@nestor.co.uk ) comme un moyen pour guider les robots des sites Web . L'idée de base était d'installer un court fichier avec un nom connu et le lieu instruit le robot où chercher. Ces orientations seront probablement ignorées par des robots malveillants , mais ils pourraient être utilisés par les robots bénignes à leur faire gagner du temps en examinant seulement certains de vos fichiers . Le protocole de base a été renforcée en 2008 par un grand nombre des principales entreprises de l'Internet comme Yahoo et Google.
Bénigne Robots
Il ya des robots que vous voulez réellement à visiter votre site. Par exemple, les moteurs de recherche utilisent des robots pour indexer l' Internet . A partir d'une simple adresse de site Web , le robot classifie ce site et maintient une liste de tous les liens présents sur le site. Puis le robot descend la liste des adresses de sites Web recueillies. Comme la liste des nouveaux sites créés chaque mois sont accessibles au public , il ya un arriéré de sites Web pour vérifier qui maintient les robots travaillant jour et nuit . Vous souhaitez que ces visites de robots parce que vous voulez que les moteurs de recherche pour connaître et classer votre site Web afin que les clients potentiels puissent vous trouver via les moteurs de recherche.
Robots malveillants
Les robots peuvent aussi être utilisés à des fins destructrices . Par exemple , les robots peuvent compiler une liste d'adresses e -mail indexés par intérêts . Pour ce faire , ils recherchent tout ce qui a un symbole "@" et prendre la corde autour de lui qui est lié par des espaces. C'est pourquoi vous verrez des professeurs de sciences informatiques donnent leur adresse Professor.Abc {arobase } University.edu - c'est à déjouer les robots maléfiques. Pour classer votre adresse e -mail en fonction de l'intérêt , le robot regarde dans la déclaration META qui fait partie du code derrière chaque site.
REP Syntaxe
Les robots . txt est installé dans un répertoire. Si votre site est www.widgits.com , le chemin d'accès au fichier robots.txt sera www.widgits.com /robots.txt . La première ligne du fichier sera " user-agent : " et la ligne suivante sera " Disallow: " - la première ligne sélectionne la population de robots et de la deuxième ligne indique les répertoires qui sont hors limites. En utilisant ";" pour indiquer un saut de ligne , "user- id: * ; /abc /" sont les deux déclarations en ligne qui dirigent tous les robots d'éviter le répertoire abc . Pour permettre SearchBot d'examiner tout, mais interdire tous les autres robots, le code serait "user- id: SearchBot ; interdire : ; ID utilisateur : * ; interdire : /« - * désigne tous les robots, /désigne l'ensemble des répertoires et une espace vide signifie qu'aucune répertoires.