Annonce

#1 2006-12-21 23:31:25

Eric
Former Piwigo Team
VALENCE (FR)
2005-03-25
4579

Les robots, encore...

Bonsoir à tous.

Malgré un robots.txt à la racine de mon site et l'ajout d'une balise Meta "Robots" dans le header généré pour la page d'index de ma galerie, j'ai toujours des déferlements de vagues de robots.
Le plus virulent en ce moment est celui de Yahoo car il s'est mis dans l'idée d'indexer toutes les combinaisons de tags disponibles sur ma gallery. Même si le nombre est limité because les catégories privées (donc non visibles aux guests), çà en fait quand même pas mal - environ 70 - surtout si on s'amuse à faire toutes les combinaisons d'association (tag 1 + tag 2, puis tag 1 + tag 3, etc...).

Bref, tout çà pour dire que c'est bien beau d'avoir un site bien référencé et indexé dans les  moteurs de recherche mais ces robots me poluent copieusement l'historique et les stats de PWG. Quelqu'un aurait-il une solution miracle pour résoudre çà, par hazard ?

Pas la peine de proposer de mettre un filtre sur IP car les robots changent régulièrement d'IP. Dans mon fichier robots.txt, j'ai mis
disallow : /[mon dossier d'install de PWG]/galleries/

Et dans ma  balise Meta, j'ai mis "index,nofollow". Les robots devraient indexer la page principale mais pas suivre les liens... Ben c'est pô le cas...

Hors ligne

#2 2006-12-22 08:25:01

flipflip
Membre
Lyon
2005-03-19
2316

Re: Les robots, encore...

Salut, pour le robot.txt c'est pour empêcher de parcourire les répertoires si par exemple tu n'a pas mis de fichier index.html ou index.php à la raçine de ton site. Dans ce cas la liste des répertoires de ton site apparait. Donc dans ce fichier tu mets tout ce que tu ne veux pas que le robot index, mais ça ne concerne pas les liens présent sur ta page ou alors sur la page d'autres sites qui font un lien direct. Ensuite ce n'est pas tout les robots qui respecte ce fichier, pour yahoo je sais pas mais google le respecte. Je crois qu'il en ai de même pour la balise meta, c'est au bon vouloir du robot.
Le plus simple serait de faire un contrôle par le référent ou l'identifiant du navigateur (j'ai oublié le nom exacte).


Le cerveau à des capacités tellement étonnantes qu’aujourd’hui pratiquement tout le monde en à un

Mon site : http://www.blogoflip.fr

Hors ligne

#3 2006-12-22 09:14:29

XEUL
Membre
chelles
2005-12-26
301

Re: Les robots, encore...

yo!
applique ce que met Vdigital dans ce topic et ça va s'arreter sous un mois a peu pres!!!
http://forum.phpwebgallery.net/viewtopic.php?id=9547


c'est en forgeant que l'on devient forgeron!
MON SITE

Hors ligne

#4 2006-12-22 10:29:56

VDigital
Former Piwigo Team
Montpellier (FR)
2005-05-04
15127

Re: Les robots, encore...

XEUL a écrit:

yo!
applique ce que met Vdigital dans ce topic et ça va s'arreter sous un mois a peu pres!!!
http://forum.phpwebgallery.net/viewtopic.php?id=9547

Je ne pense pas qu'il s'agisse du même pb.
8-)


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#5 2006-12-22 12:02:12

Eric
Former Piwigo Team
VALENCE (FR)
2005-03-25
4579

Re: Les robots, encore...

VDigital a écrit:

XEUL a écrit:

yo!
applique ce que met Vdigital dans ce topic et ça va s'arrêter sous un mois a peu pres!!!
http://forum.phpwebgallery.net/viewtopic.php?id=9547

Je ne pense pas qu'il s'agisse du même pb.
8-)

Oui, il semble que notre ami XEUL ait déjà commencé à fêter Noel et le nouvel an ;-))

flipflip a écrit:

Salut, pour le robot.txt c'est pour empêcher de parcourire les répertoires si par exemple tu n'a pas mis de fichier index.html ou index.php à la racine de ton site.

Si je fais çà, cela empêchera les robots d'indexer ma galerie en tant que telle et ce n'est pas ce que je souhaite. Et je ne souhaite pas non plus que les robots indexent toutes mes images et tous les liens possibles pour y accéder (cas des tags). Bref c'est un casse tête.

C'est pourquoi je me suis dit qu'en empêchant l'indexation du répertoire galerie... Mais, non. Je me suis fourvoyé. Je voulais essayer d'empêcher l'indexation du fichier tags.php mais c'est idiot puisqu'il n'affiche pas réellement la page concernée.... Je sèche...

Hors ligne

#6 2006-12-22 12:20:45

VDigital
Former Piwigo Team
Montpellier (FR)
2005-05-04
15127

Re: Les robots, encore...

Comme ça...
Il faudrait faire du nofollow dans le parsing de header.tpl
quand on est sur la page tags.php

Cela ne suffit pas malheureusement, c'est le menu des Tags de la page index.php qui pose pb.
Dès qu'on est sur une image, en suivant le lien d'un tag, on obtient ce menu.

Or nous avons besoin des scans de la page d'index pour les autres liens.
A ce jour, je ne sais pas éliminer ces scans.

Les bots devraient avoir le même comportement face aux tags dans un blog, non?
Il faudrait creuser pour savoir si ce pb existe ou comment il est évité.

Par contre, l'idée de flipflip du contrôle du référent ou de l'identifiant du navigateur pour ne pas historiser me semble être une excellente idée à creuser (cela n"évite pas le scan mais évite une explosion de l'historique).

8-)


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#7 2006-12-22 13:39:38

XEUL
Membre
chelles
2005-12-26
301

Re: Les robots, encore...

donc ci j'ai bien compris l'astuce donnée dans l'autre topic par vincent empeche le referencement??????


c'est en forgeant que l'on devient forgeron!
MON SITE

Hors ligne

#8 2006-12-22 14:40:37

VDigital
Former Piwigo Team
Montpellier (FR)
2005-05-04
15127

Re: Les robots, encore...

XEUL a écrit:

donc ci j'ai bien compris l'astuce donnée dans l'autre topic par vincent empeche le referencement??????

[HS]Les spams que tu subissais, avaient pour objectif de faire référencer des liens depuis ton site par les robots. Ceci afin d'améliorer le ranking de leurs sites, et du même coup faire baisser le rank de ton site. En éliminant ces spams, tu ne les interresses plus les spammeurs.
Les bots: Il y a robots et robots. Eric n'est pas spammé mais soumis à des visites trop nombreuses de bons ou moins bons robots. Visites qui sont historisées et de plus qui se prennent les pieds dans le tapis avec les tags.
L'astuce que j'ai donné n'empêche pas le référencement de ton site, elle améliore son efficacité et son résultat. Par contre, elle ne correspond en rien au problème d'Eric.
Est-ce plus clair?
8-)
[/HS]


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#9 2006-12-22 14:53:08

XEUL
Membre
chelles
2005-12-26
301

Re: Les robots, encore...

oui Mr. merci de l'explication.
comme ça je ne melange plus.


c'est en forgeant que l'on devient forgeron!
MON SITE

Hors ligne

#10 2006-12-22 15:45:35

Eric
Former Piwigo Team
VALENCE (FR)
2005-03-25
4579

Re: Les robots, encore...

Remarque sur l'indexation des tags : Il n'y a pas seulement le menu des tags qui est en cause mais aussi celui de la recherche. Car les bots qui me harcellent font des combinaisons tag1 + tag2 etc...

Ceci n'est, normalement, pas possible via la page des tags mais par la page de recherche. Cà complique encore la chose de mon point de vue de néophyte.

Une demande d'évolution dans le bugtracker sur le sujet serait-elle judicieuse ?

[Edit] Vérifications faite sur le header des pages de recherche et des tags après modif de header.tpl => la balise <meta name="robots" content="index,nofollow"> est bien présente dans le source. Donc, si "YahooBot" (car il s'agit essentiellement de lui) est un bon / gentil bot, il n'est pas sensé suivre les liens de ces pages... [/Edit]

Dernière modification par Eric (2006-12-22 15:51:27)

Hors ligne

#11 2006-12-22 16:08:35

VDigital
Former Piwigo Team
Montpellier (FR)
2005-05-04
15127

Re: Les robots, encore...

Eric a écrit:

[Edit] Vérifications faite sur le header des pages de recherche et des tags après modif de header.tpl => la balise <meta name="robots" content="index,nofollow"> est bien présente dans le source. Donc, si "YahooBot" (car il s'agit essentiellement de lui) est un bon / gentil bot, il n'est pas sensé suivre les liens de ces pages... [/Edit]

On est d'accord. Il devrait se contenter d'indexer les liens présents sur la page.
Il faut donc lui forcer noindex sur cette page en plus de celles identifées.
Plus simple à dire qu'à faire.
8-)


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#12 2006-12-22 16:10:58

VDigital
Former Piwigo Team
Montpellier (FR)
2005-05-04
15127

Re: Les robots, encore...

Eric a écrit:

Une demande d'évolution dans le bugtracker sur le sujet serait-elle judicieuse ?

Oui, si on a une bonne idée d'ici la sortie de la 1.7 cela serait stupide de ne pas l'intégrer.
8-)


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#13 2006-12-22 16:13:03

vimages
Membre
2004-03-27
2429

Re: Les robots, encore...

Bonjour,

j'interviens après ce dernier post pour dire que je rencontre le même petit "problème".

Je n'en aurais pas parlé, mais comme le sujet est lancé...

En fait,il n'y a rien de bien méchant, pas de réelle gène due à la visite poussée de ces robots..   mais c'est vrai qu'ils polluent les stats de l'historique... alors...  a défaut d'avoir envie de gonfler les stats pour flatter son égo, il peut-être intéressant de savoir comment limiter l'étendue de l'incursion des robots..


amicalement,
éric.

Hors ligne

#14 2006-12-22 16:34:11

VDigital
Former Piwigo Team
Montpellier (FR)
2005-05-04
15127

Re: Les robots, encore...

C'est l'idée de flipflip dès le post #2.

Basée sur le contrôle du référent ou de l'identifiant du navigateur pour ne pas historiser.
Dès que possible, il faut chercher de ce coté (cela n'évite pas le scan mais l'explosion de l'historique).
D'ailleurs, cela n'est pas trop grave d'être scanné si on n'a pas de réelle limite de volume downloadé chez un hébergeur (ça existe et dans ce cas c'est foutu).


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#15 2006-12-22 17:36:50

Eric
Former Piwigo Team
VALENCE (FR)
2005-03-25
4579

Re: Les robots, encore...

VDigital a écrit:

Il faut donc lui forcer noindex sur cette page en plus de celles identifées. Plus simple à dire qu'à faire.

Faire un header.tpl propre à l'affichage des pages tags et recherche ? Car le header.tpl est commun à toutes les pages générées... Enfin, je crois.


VDigital a écrit:

Eric a écrit:

Une demande d'évolution dans le bugtracker sur le sujet serait-elle judicieuse ?

Oui, si on a une bonne idée d'ici la sortie de la 1.7 cela serait stupide de ne pas l'intégrer.

J'y vais de ce pas...

[Edit]
Référence Bugtracker : 606
Je l'ai fait en anglais en espérant avoir été assez clair. Mon anglais, bien que techniquement pas trop mauvais, est loin de Shakespeare :-/
[/Edit]

Dernière modification par Eric (2006-12-22 20:45:52)

Hors ligne

Pied de page des forums

Propulsé par FluxBB

github twitter newsletter Faire un don Piwigo.org © 2002-2024 · Contact