Pages: 1
Bonjour,
Je viens de découvrir comment ne plus être embeter par les bots (google, yahoo, etc...)
Pour moi c'est une grosse découverte :))
J'ai lu sur le forum que certains s'en plaignaient car ils faussent les stats
Alors pour ceux qui n'en veulent plus, la manip est assez simple.
Il faut créer un fichier, robots.txt et le placer à la racine du site.
Exemple de ce qu'on peut écrire dans le fichier:
# Autorisation d'un seul robot :
User-Agent: nomDuRobot
Disallow :
User-Agent: *
Disallow: /
# Exclusion d'un robot :
User-Agent: NomDuRobot
Disallow: /
User-Agent: *
Disallow:
# Exclusion d'une page :
User-Agent: *
Disallow: /repertoire/chemin/page.html
# Exclusion de plusieurs page :
User-Agent: *
Disallow: /repertoire/chemin/page.html
Disallow: /repertoire/chemin/page2.html
Disallow: /repertoire/chemin/page3.html
# Exclusion de toutes les pages d'un répertoire et ses sous-dossiers :
User-Agent: *
Disallow: /repertoire/
Voici quelques noms de bots
Alta Vista Scooter
Excite ArchitextSpider
Google Googlebot
HotBot Slurp
InfoSeek InfoSeek Sidewinder
Lycos T-Rex
Voilà Echo
Et des compléments d'infos importants: http://www.commentcamarche.net/faq/suje … -important
Dernière modification par KAO (2009-08-24 03:20:42)
Hors ligne
Solution pour serveur Apache uniquement.
Pas pour les hébergements free à priori.
Valable pour un site qu ne veut pas être référencé du tout à terme (usage familial par exemple).
Sinon les robots peuvent être exclus des statistiques (cela à déjà été réalisé).
Mais laisser les regarder votre site.
Ils viennent régulièrement et n'accèdent qu'à quelques images pour ne pas prendre toute la bande passante.
Les seuls vrais visiteurs gênants sont les aspirateurs de site.
Hors ligne
VDigital a écrit:
Les seuls vrais visiteurs gênants sont les aspirateurs de site.
Et ceux-là, c'est peine perdue d'avance car on ne peut pas les empêcher de faire leur boulot sauf à n'avoir que des galeries privées !
Hors ligne
nicolas a écrit:
VDigital a écrit:
Les seuls vrais visiteurs gênants sont les aspirateurs de site.
Et ceux-là, c'est peine perdue d'avance car on ne peut pas les empêcher de faire leur boulot sauf à n'avoir que des galeries privées !
Et ceux-là, peine perdue?
Anti-Aspi assume parfaitement son rôle, certes ce n'est pas évident à paramètrer...
C'est surtout que l'Anti-Aspi actuel accède à la table historique.
En conséquence, il faut activer l'historique (impossible chez free).
De plus, il est indispensable de faire le ménage dans l'historique pour avoir moins d'accès simultanés et longs (contention des accès sur une table).
Ou alors...
Par exemple, dans la table de whois_online (ou table équivalente) des éléments vont permettre à une autre version d'Anti-Aspi de planter ces consultations fréquentes (accès par balayage à tous les liens internes).
Cela sera pour plus tard mais cela se fera (les infos sont déjà collectées dans la dernière version de whois_online).
;-)
Hors ligne
VDigital a écrit:
nicolas a écrit:
VDigital a écrit:
Les seuls vrais visiteurs gênants sont les aspirateurs de site.
Et ceux-là, c'est peine perdue d'avance car on ne peut pas les empêcher de faire leur boulot sauf à n'avoir que des galeries privées !
Et ceux-là, peine perdue?
Anti-Aspi assume parfaitement son rôle, certes ce n'est pas évident à paramètrer...
wget est mon ami. Au pire, un p'tit script se basant sur curl avec temporisation et tout et tout.
Mon message n'était nullement provocatif. C'est juste pour signaler qu'un système anti-aspi fiable est une gageure.
VDigital a écrit:
Par exemple, dans la table de whois_online (ou table équivalente) des éléments vont permettre à une autre version d'Anti-Aspi de planter ces consultations fréquentes (accès par balayage à tous les liens internes).
Cela sera pour plus tard mais cela se fera (les infos sont déjà collectées dans la dernière version de whois_online).
;-)
Pour contrer cela, il suffit au robot de faire un balayage aléatoire.
Hors ligne
nicolas a écrit:
wget est mon ami. Au pire, un p'tit script se basant sur curl avec temporisation et tout et tout.
Ils passeront inapperçu sauf une analyse des accès (mais de toute façon dans ce cas, on ne peut rien faire).
nicolas a écrit:
Mon message n'était nullement provocatif. C'est juste pour signaler qu'un système anti-aspi fiable est une gageure.
Je sais bien Nicolas et c'est bien comme cela que je le comprends.
nicolas a écrit:
VDigital a écrit:
Par exemple, dans la table de whois_online (ou table équivalente) des éléments vont permettre à une autre version d'Anti-Aspi de planter ces consultations fréquentes (accès par balayage à tous les liens internes).
Cela sera pour plus tard mais cela se fera (les infos sont déjà collectées dans la dernière version de whois_online).
;-)Pour contrer cela, il suffit au robot de faire un balayage aléatoire.
Aléatoire ou pas, s'il ne temporise pas assez, il se fera exclure.
Ceux qui aspirent ne sont pas si nombreux, c'est heureux.
Faut-il encore que le contenu des sites les intéresse, et qu'ils disposent de l'espace disque pour stocker le contenu collecté.
Ils ont tout leur temps et contre ça, une seule solution: ne pas publier sur le web.
;-)
Hors ligne
VDigital a écrit:
[...]
En conséquence, il faut activer l'historique (impossible chez free).
[...]
Une histoire d'interdiction de log d'IP ? Parce que sur ma galerie c'est actif, mais je n'ai guère de trafic il faut dire. :p
Hors ligne
Criss a écrit:
VDigital a écrit:
[...]
En conséquence, il faut activer l'historique (impossible chez free).
[...]Une histoire d'interdiction de log d'IP ? Parce que sur ma galerie c'est actif, mais je n'ai guère de trafic il faut dire. :p
Qu'est-donc qui est actif ? Car si c'est l'historique, c'est "dangereux" chez Free.
Je viens de regarder, ce point n'est pas évoqué dans le wiki. Regardes sur le forum, il y a plusieurs sujets sur ce point ;-)
Hors ligne
VDigital a écrit:
Solution pour serveur Apache uniquement.
Pas pour les hébergements free à priori.
faudrait m'expliquer ces deux points, car pour moi le fichier robots.txt n'est pas géré par l'hébergeur et l'architecture du serveur, mais par le robot qui s'il est poli, va d'abord chercher à la racine du site s'il existe un fichier robots.txt.
S'il le trouve, c'est qu'il l'a cherché. Et donc probablement qu'il va respecter les règles d'usage qui y sont décrites (si elles sont correctement écrites et interprétées). Indépendamment de l'hébergeur, ou du serveur web.
normallement.
je crois.
je croyais.
^^;
Hors ligne
grum a écrit:
VDigital a écrit:
Solution pour serveur Apache uniquement.
Pas pour les hébergements free à priori.faudrait m'expliquer ces deux points, car pour moi le fichier robots.txt n'est pas géré par l'hébergeur et l'architecture du serveur, mais par le robot qui s'il est poli, va d'abord chercher à la racine du site s'il existe un fichier robots.txt.
S'il le trouve, c'est qu'il l'a cherché. Et donc probablement qu'il va respecter les règles d'usage qui y sont décrites (si elles sont correctement écrites et interprétées). Indépendamment de l'hébergeur, ou du serveur web.
normallement.
je crois.
je croyais.
^^;
Tu as raison, j'ai écrit trop vite.
Oui robot.txt est utilisable sur tous les serveurs.
Maintenant, est-ce que cela bloque le "Search Engine" et protège vos stats: que nénni !!!
Pour vraiment vous protéger, il faut mettre en place des .htaccess et là, mon propos tiendra la route.
J'avais juste pris un raccourci.
Merci Grum de m'obliger à rectifier mon propos.
Pas de problème.
Hors ligne
VDigital a écrit:
Maintenant, est-ce que cela bloque le "Search Engine" et protège vos stats: que nénni !!!
Pour vraiment vous protéger, il faut mettre en place des .htaccess et là, mon propos tiendra la route.
J'avais juste pris un raccourci.
tiens, ce principe là je le connaissais pas.
à vrai dire, j'ai toujours (un peu naïvement) cru que les robots suivaient les hyperliens pour trouver les fichiers, mais effectivement çà doit être bien plus rapide/efficace de parcourir directement les répertoires ^^;
et dans ce cas le .htaccess est donc effectivement la meilleure solution pour protéger ses images contre les robots impolis (et plus largement, de tous les visiteurs impolis :o))
VDigital a écrit:
Merci Grum de m'obliger à rectifier mon propos.
Pas de problème.
de rien. la confrontation des idées et des connaissances, çà fait partie des principes d'un forum ;)
Hors ligne
grum a écrit:
à vrai dire, j'ai toujours (un peu naïvement) cru que les robots suivaient les hyperliens pour trouver les fichiers, mais effectivement çà doit être bien plus rapide/efficace de parcourir directement les répertoires ^^;
Si tu laisses libre l'accès à tes répertoires, pour les moteurs de recherche le scan sera 10 fois plus rapide et sans risque de boucle pour eux. Une de mes premières discussions avec Pierrick portait sur ce point et lui aussi a été surpris, et pourtant c'est évident.
;-)
Hors ligne
Pages: 1