Annonce

#1 2009-08-24 03:19:45

KAO
Membre
2009-07-15
50

Les robots vous embetent, fausse les stats ?

Bonjour,

Je viens de découvrir comment ne plus être embeter par les bots (google, yahoo, etc...)
Pour moi c'est une grosse découverte :))
J'ai lu sur le forum que certains s'en plaignaient car ils faussent les stats

Alors pour ceux qui n'en veulent plus, la manip est assez simple.
Il faut créer un fichier, robots.txt et le placer à la racine du site.

Exemple de ce qu'on peut écrire dans le fichier:

# Autorisation d'un seul robot  :

User-Agent: nomDuRobot
Disallow :
User-Agent: *
Disallow: /

# Exclusion d'un robot :

User-Agent: NomDuRobot
Disallow: /
User-Agent: *
Disallow:

# Exclusion d'une page :

User-Agent: *
Disallow: /repertoire/chemin/page.html

# Exclusion de plusieurs page :

User-Agent: *
Disallow: /repertoire/chemin/page.html
Disallow: /repertoire/chemin/page2.html
Disallow: /repertoire/chemin/page3.html

# Exclusion de toutes les pages d'un répertoire et ses sous-dossiers :

User-Agent: *
Disallow: /repertoire/

Voici quelques noms de bots

Alta Vista     Scooter
Excite     ArchitextSpider
Google     Googlebot
HotBot     Slurp
InfoSeek     InfoSeek Sidewinder
Lycos     T-Rex
Voilà     Echo

Et des compléments d'infos importants: http://www.commentcamarche.net/faq/suje … -important

Dernière modification par KAO (2009-08-24 03:20:42)

Hors ligne

#2 2009-08-24 07:14:53

VDigital
Former Piwigo Team
Paris (FR)
2005-05-04
15124

Re: Les robots vous embetent, fausse les stats ?

Solution pour serveur Apache uniquement.

Pas pour les hébergements free à priori.

Valable pour un site qu ne veut pas être référencé du tout à terme (usage familial par exemple).

Sinon les robots peuvent être exclus des statistiques (cela à déjà été réalisé).
Mais laisser les regarder votre site.
Ils viennent régulièrement et n'accèdent qu'à quelques images pour ne pas prendre toute la bande passante.

Les seuls vrais visiteurs gênants sont les aspirateurs de site.


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#3 2009-08-24 09:32:36

nicolas
Former Piwigo Team
2004-12-30
1535

Re: Les robots vous embetent, fausse les stats ?

VDigital a écrit:

Les seuls vrais visiteurs gênants sont les aspirateurs de site.

Et ceux-là, c'est peine perdue d'avance car on ne peut pas les empêcher de faire leur boulot sauf à n'avoir que des galeries privées !


Donnez du peps à vos tags
Laissez vos visiteurs vous aidez à tagger vos images avec user_tags

Hors ligne

#4 2009-08-24 10:05:51

VDigital
Former Piwigo Team
Paris (FR)
2005-05-04
15124

Re: Les robots vous embetent, fausse les stats ?

nicolas a écrit:

VDigital a écrit:

Les seuls vrais visiteurs gênants sont les aspirateurs de site.

Et ceux-là, c'est peine perdue d'avance car on ne peut pas les empêcher de faire leur boulot sauf à n'avoir que des galeries privées !

Et ceux-là, peine perdue?
Anti-Aspi assume parfaitement son rôle, certes ce n'est pas évident à paramètrer...

C'est surtout que l'Anti-Aspi actuel accède à la table historique.
En conséquence, il faut activer l'historique (impossible chez free).
De plus, il est indispensable de faire le ménage dans l'historique pour avoir moins d'accès simultanés et longs (contention des accès sur une table).
Ou alors...

Par exemple, dans la table de whois_online (ou table équivalente) des éléments vont permettre à une autre version d'Anti-Aspi de planter ces consultations fréquentes (accès par balayage à tous les liens internes).
Cela sera pour plus tard mais cela se fera (les infos sont déjà collectées dans la dernière version de whois_online).
;-)


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#5 2009-08-24 11:34:18

nicolas
Former Piwigo Team
2004-12-30
1535

Re: Les robots vous embetent, fausse les stats ?

VDigital a écrit:

nicolas a écrit:

VDigital a écrit:

Les seuls vrais visiteurs gênants sont les aspirateurs de site.

Et ceux-là, c'est peine perdue d'avance car on ne peut pas les empêcher de faire leur boulot sauf à n'avoir que des galeries privées !

Et ceux-là, peine perdue?
Anti-Aspi assume parfaitement son rôle, certes ce n'est pas évident à paramètrer...

wget est mon ami. Au pire, un p'tit script se basant sur curl avec temporisation et tout et tout.
Mon message n'était nullement provocatif. C'est juste pour signaler qu'un système anti-aspi fiable est une gageure.

VDigital a écrit:

Par exemple, dans la table de whois_online (ou table équivalente) des éléments vont permettre à une autre version d'Anti-Aspi de planter ces consultations fréquentes (accès par balayage à tous les liens internes).
Cela sera pour plus tard mais cela se fera (les infos sont déjà collectées dans la dernière version de whois_online).
;-)

Pour contrer cela, il suffit au robot de faire un balayage aléatoire.


Donnez du peps à vos tags
Laissez vos visiteurs vous aidez à tagger vos images avec user_tags

Hors ligne

#6 2009-08-24 12:07:44

VDigital
Former Piwigo Team
Paris (FR)
2005-05-04
15124

Re: Les robots vous embetent, fausse les stats ?

nicolas a écrit:

wget est mon ami. Au pire, un p'tit script se basant sur curl avec temporisation et tout et tout.

Ils passeront inapperçu sauf une analyse des accès (mais de toute façon dans ce cas, on ne peut rien faire).

nicolas a écrit:

Mon message n'était nullement provocatif. C'est juste pour signaler qu'un système anti-aspi fiable est une gageure.

Je sais bien Nicolas et c'est bien comme cela que je le comprends.

nicolas a écrit:

VDigital a écrit:

Par exemple, dans la table de whois_online (ou table équivalente) des éléments vont permettre à une autre version d'Anti-Aspi de planter ces consultations fréquentes (accès par balayage à tous les liens internes).
Cela sera pour plus tard mais cela se fera (les infos sont déjà collectées dans la dernière version de whois_online).
;-)

Pour contrer cela, il suffit au robot de faire un balayage aléatoire.

Aléatoire ou pas, s'il ne temporise pas assez, il se fera exclure.

Ceux qui aspirent ne sont pas si nombreux, c'est heureux.
Faut-il encore que le contenu des sites les intéresse, et qu'ils disposent de l'espace disque pour stocker le contenu collecté.
Ils ont tout leur temps et contre ça, une seule solution: ne pas publier sur le web.
;-)


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#7 2009-08-24 14:42:36

Criss
Former Piwigo Team
Nice
2008-03-31
323

Re: Les robots vous embetent, fausse les stats ?

VDigital a écrit:

[...]
En conséquence, il faut activer l'historique (impossible chez free).
[...]

Une histoire d'interdiction de log d'IP ? Parce que sur ma galerie c'est actif, mais je n'ai guère de trafic il faut dire. :p


La beta de Piwigo.com a été mise en ligne le 30 juin 2009. Enregistrez vous pour obtenir une galerie Piwigo hébergée. Venez nous aider à faire du beta-test !

Hors ligne

#8 2009-08-24 19:26:09

Gotcha
Equipe Piwigo
Pierrelatte (26)
2007-03-14
13331

Re: Les robots vous embetent, fausse les stats ?

Criss a écrit:

VDigital a écrit:

[...]
En conséquence, il faut activer l'historique (impossible chez free).
[...]

Une histoire d'interdiction de log d'IP ? Parce que sur ma galerie c'est actif, mais je n'ai guère de trafic il faut dire. :p

Qu'est-donc qui est actif ? Car si c'est l'historique, c'est "dangereux" chez Free.
Je viens de regarder, ce point n'est pas évoqué dans le wiki. Regardes sur le forum, il y a plusieurs sujets sur ce point ;-)


Ayez comme premier réflexe de consulter le wiki.
Ensuite, veuillez effectuer une recherche sur le forum avant de poser votre question.

LE FAIRE EST LE REVELATEUR DE L'ETRE

Hors ligne

#9 2009-08-24 20:22:17

grum
Équipe Piwigo
50% Nantes - 50% Paris
2007-09-10
2502

Re: Les robots vous embetent, fausse les stats ?

VDigital a écrit:

Solution pour serveur Apache uniquement.

Pas pour les hébergements free à priori.

faudrait m'expliquer ces deux points, car pour moi le fichier robots.txt n'est pas géré par l'hébergeur et l'architecture du serveur, mais par le robot qui s'il est poli, va d'abord chercher à la racine du site s'il existe un fichier robots.txt.
S'il le trouve, c'est qu'il l'a cherché. Et donc probablement qu'il va respecter les règles d'usage qui y sont décrites (si elles sont correctement écrites et interprétées). Indépendamment de l'hébergeur, ou du serveur web.

normallement.
je crois.

je croyais.
^^;


Mes photos avec Piwigo évidemment !
[ www.grum.fr ] [ photos.grum.fr ]

Hors ligne

#10 2009-08-24 20:38:25

VDigital
Former Piwigo Team
Paris (FR)
2005-05-04
15124

Re: Les robots vous embetent, fausse les stats ?

grum a écrit:

VDigital a écrit:

Solution pour serveur Apache uniquement.

Pas pour les hébergements free à priori.

faudrait m'expliquer ces deux points, car pour moi le fichier robots.txt n'est pas géré par l'hébergeur et l'architecture du serveur, mais par le robot qui s'il est poli, va d'abord chercher à la racine du site s'il existe un fichier robots.txt.
S'il le trouve, c'est qu'il l'a cherché. Et donc probablement qu'il va respecter les règles d'usage qui y sont décrites (si elles sont correctement écrites et interprétées). Indépendamment de l'hébergeur, ou du serveur web.

normallement.
je crois.

je croyais.
^^;

Tu as raison, j'ai écrit trop vite.
Oui robot.txt est utilisable sur tous les serveurs.

Maintenant, est-ce que cela bloque le "Search Engine" et protège vos stats: que nénni !!!
Pour vraiment vous protéger, il faut mettre en place des .htaccess et là, mon propos tiendra la route.
J'avais juste pris un raccourci.
Merci Grum de m'obliger à rectifier mon propos.

Pas de problème.


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#11 2009-08-24 20:59:41

grum
Équipe Piwigo
50% Nantes - 50% Paris
2007-09-10
2502

Re: Les robots vous embetent, fausse les stats ?

VDigital a écrit:

Maintenant, est-ce que cela bloque le "Search Engine" et protège vos stats: que nénni !!!
Pour vraiment vous protéger, il faut mettre en place des .htaccess et là, mon propos tiendra la route.
J'avais juste pris un raccourci.

tiens, ce principe là je le connaissais pas.
à vrai dire, j'ai toujours (un peu naïvement) cru que les robots suivaient les hyperliens pour trouver les fichiers, mais effectivement çà doit être bien plus rapide/efficace de parcourir directement les répertoires ^^;
et dans ce cas le .htaccess est donc effectivement la meilleure solution pour protéger ses images contre les robots impolis (et plus largement, de tous les visiteurs impolis :o))

VDigital a écrit:

Merci Grum de m'obliger à rectifier mon propos.

Pas de problème.

de rien. la confrontation des idées et des connaissances, çà fait partie des principes d'un forum ;)


Mes photos avec Piwigo évidemment !
[ www.grum.fr ] [ photos.grum.fr ]

Hors ligne

#12 2009-08-24 22:38:39

VDigital
Former Piwigo Team
Paris (FR)
2005-05-04
15124

Re: Les robots vous embetent, fausse les stats ?

grum a écrit:

à vrai dire, j'ai toujours (un peu naïvement) cru que les robots suivaient les hyperliens pour trouver les fichiers, mais effectivement çà doit être bien plus rapide/efficace de parcourir directement les répertoires ^^;

Si tu laisses libre l'accès à tes répertoires, pour les moteurs de recherche le scan sera 10 fois plus rapide et sans risque de boucle pour eux. Une de mes premières discussions avec Pierrick portait sur ce point et lui aussi a été surpris, et pourtant c'est évident.

;-)


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

Pied de page des forums

Propulsé par FluxBB

github twitter facebook newsletter Faire un don Piwigo.org © 2002-2020 · Contact