Bonjour,
J'ai un robot qui "laboure" en permance mon site, j'ai son IP, comment faire pour le bloquer ?
Je suis sur Piwigo 2.0.2
Bien cordialement
www.sergedekeyser.com
Hors ligne
Je te conseils [extension by P@t] AntiAspi
Hors ligne
Bonjour,
Petite question d'un novice : à quoi vois-tu qu'un robot "laboure" ton site ?
Hors ligne
Pixellissimo a écrit:
Bonjour,
Petite question d'un novice : à quoi vois-tu qu'un robot "laboure" ton site ?
dans l'historique si une ip est souvent présente tu regarde d'où elle vient sur un site du genre de http://www.geoiptool.com/
Hors ligne
je n'ai pas regardé mais [extension by grum] AStat doit indiquer les moteurs de recherche, grum ?
Hors ligne
Nan, AStat ne peut pas détecter un robot.
AStat permet de filtrer certaines IP pour les stats, mais çà nécessite de les réperer (méthode bricole : généralement seuls les robots sont capables de regarder plusieurs centaines de photos en une journée).
Le seul moyen qu'il y aurait pour repérer un robot, serait :
- soit de disposer de l'agent dans l'historique des visites
- soit de disposer d'un trigger lors de l'enregistrement d'un évènement dans l'historique
Exemple de log apache sur mon serveur :
66.249.65.151 - - [10/Nov/2009:02:24:40 +0100] "GET /galleries/ImgTreks/japon2008/tokyo/quartiers/shiodome/thumbnail/TN-_K203192.jpg HTTP/1.1" 200 3210 "-" "Googlebot-Image/1.0" 66.249.65.151 - - [10/Nov/2009:02:51:29 +0100] "GET /index.php?/category/26 HTTP/1.1" 200 32838 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.65.151 - - [10/Nov/2009:02:59:23 +0100] "GET /picture.php?/4264/category/224 HTTP/1.1" 200 10371 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.65.151 - - [10/Nov/2009:03:07:11 +0100] "GET /galleries/ImgTreks/GR10/IMGP1774.JPG HTTP/1.1" 304 - "-" "Googlebot-Image/1.0" 66.249.65.151 - - [10/Nov/2009:03:29:26 +0100] "GET / HTTP/1.1" 200 18346 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.65.151 - - [10/Nov/2009:03:44:11 +0100] "GET /picture.php?/4261/category/224 HTTP/1.1" 200 10378 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.65.151 - - [10/Nov/2009:03:45:25 +0100] "GET /picture.php?/4277/category/224 HTTP/1.1" 200 10658 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.65.151 - - [10/Nov/2009:03:51:40 +0100] "GET /index.php?/category/247 HTTP/1.1" 200 42158 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.65.151 - - [10/Nov/2009:03:59:27 +0100] "GET /galleries/themes/sport/24H-VTT-MAUVES-2007/Dimanche_17-06/thumbnail/TN-0706170717_IGP8795.jpg HTTP/1.1" 304 - "-" "Googlebot-Image/1.0" 66.249.65.151 - - [10/Nov/2009:04:05:24 +0100] "GET /index.php?/categories HTTP/1.1" 200 18388 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.65.151 - - [10/Nov/2009:04:09:12 +0100] "GET /galleries/themes/sport/24H-VTT-MAUVES-2007/Samedi_16-06/_IGP8735_nb.jpg HTTP/1.1" 200 264551 "-" "Googlebot-Image/1.0" 66.249.65.151 - - [10/Nov/2009:04:13:31 +0100] "GET /galleries/ImgTreks/WE-Savoie/thumbnail/TN-09011322__IGP0121_07.jpg HTTP/1.1" 304 - "-" "Googlebot-Image/1.0" 66.249.65.151 - - [10/Nov/2009:04:15:55 +0100] "GET /picture.php?/4333/category/227 HTTP/1.1" 200 10773 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.65.151 - - [10/Nov/2009:04:16:37 +0100] "GET /picture.php?/4270/category/224 HTTP/1.1" 200 10370 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.65.151 - - [10/Nov/2009:04:27:14 +0100] "GET /picture.php?/4272/category/224 HTTP/1.1" 200 10743 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 66.249.65.151 - - [10/Nov/2009:04:33:23 +0100] "GET /picture.php?/944/category/38 HTTP/1.1" 200 9673 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 67.195.111.243 - - [10/Nov/2009:04:39:19 +0100] "GET /robots.txt HTTP/1.0" 404 - "-" "Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)" 67.195.111.243 - - [10/Nov/2009:04:39:25 +0100] "GET /index.php? HTTP/1.0" 200 17763 "-" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)" 67.195.111.243 - - [10/Nov/2009:04:39:26 +0100] "GET /template/gally/content.css HTTP/1.0" 304 - "http://photos.grum.fr/index.php?" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)" 67.195.111.243 - - [10/Nov/2009:04:39:26 +0100] "GET /template/gally/thumbnails.css HTTP/1.0" 200 4769 "http://photos.grum.fr/index.php?" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)" 67.195.111.243 - - [10/Nov/2009:04:39:26 +0100] "GET /template/gally/menubar.css HTTP/1.0" 200 1641 "http://photos.grum.fr/index.php?" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)" 67.195.111.243 - - [10/Nov/2009:04:39:27 +0100] "GET /template/gally/theme/grum-dark%20II/theme.css HTTP/1.0" 304 - "http://photos.grum.fr/index.php?" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)" 67.195.111.243 - - [10/Nov/2009:04:39:27 +0100] "GET /plugins/lmt/lmt_icn.css HTTP/1.0" 304 - "http://photos.grum.fr/index.php?" "Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)"
On y voit trois types de robots :
- le robot google pour les images "Googlebot-Image/1.0"
- le robot google "Googlebot/2.1"
- le robot yahoo slurp "Yahoo! Slurp" (et "Yahoo! Slurp/3.0")
On constate qu'il s'agit de robots polis : y a tentative de lecture du fichiers robots.txt avant de procéder à l'indexation du site.
Donc soit :
- on souhaite que le site soit indexé, on accepte les robots, et on filtre les IP dans les Stats
- on ne souhaite pas que le site soit indexé, on créer alors un fichier robots.txt avec ce qu'il faut dedans pour indiquer aux robots de ne pas perdre de temps ici
Ou alors :
- on ajoute un trigger dans Piwigo au niveau de l'enregistrement de l'historique
- on ajoute l'agent dans l'historique
La première solution à deux avantages :
- ne surcharge pas les bases de piwigo
- laisse le choix à l'utilisateur de ce qu'il veut faire au travers d'un ou plusieurs plugins (filtrer l'évènement, le stocker, le marquer, ....)
- si pas de plugins exploitant le trigger, pas de pertes de performances notables
Hors ligne
[extension by VDigital] Whois Online détecte nos "amis" les bots.
Dans la colonne 1er Accès, si vous voyez un petit SE pointez celui-ci avec votre souris et l'info-bulle indiquera de quel robot il s'agit.
exemples:
Possible Banned Search engine: Slurp - (Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp))
Possible Banned Search engine: crawler - (Mozilla/5.0 (compatible; KaloogaBot; http://www.kalooga.com/info.html?page=crawler))
Possible Banned Search engine: Teoma - (Mozilla/5.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml))
Possible Banned Search engine: Googlebot - (Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html))
etc.
Vous pouvez soit croire les explications données en suivant le lien (je ne l'ai pas encore mis sur le SE lui-même, désolé).
Après pour en savoir plus sur les nos amis les Bots, vous n'oublierez pas que Google est aussi notre ami.
;-)
Hors ligne
Moi aussi j'ai des bots en permanecne sur le site, ça me bouche la vue sur les stats. *************
J'utilise magento, si quelqu'un a une astuce pour filtrer...
[edit]
Merci de ne donner que le lien direct en direction de ta galerie
Dernière modification par ddtddt (2011-07-09 12:39:42)
Hors ligne