#1 2010-04-20 16:36:24

Gotcha
Equipe Piwigo
Pierrelatte (26)
2007-03-14
13324

Les vilains robots et autres aspirateurs => EXIT

Bonjour,

Je suis en train de tester (avec succès) quelques parades pour éviter de voir les statistiques et l'historique de ma galerie augmenter de quelques 2000 à 3000 visites par jour !
Les coupables sont identifiés grâce notamment à [extension by VDigital] Whois Online qui me permet de vite me rendre compte des des robots chinois et américain visites ma galerie mais à 90% des cas sur les même photos !!!

Au bout de 6 mois d'observations, et ne voyant pas de véritables visiteurs provenant de ces pays, j'ai décidé de faire le ménage.
J'ai joué sur deux fichiers.
- robots.txt
- .htaccess

Le second reprendra certaines règles du premier car les robots ne respectent les recommandations que lorsque ça les arranges...

Voici le contenu de mon robots.txt

User-agent: *
Disallow: /template
Disallow: /language
Disallow: /_data
Disallow: /tools
Disallow: /slideshow
Disallow: /admin
Disallow: /install
Disallow: /cgi-bin
Disallow: /include
Disallow: /template-extension
Disallow: /plugins
Disallow: /doc
Disallow: /template-common

User-agent: baiduspider
Disallow: /

User-agent: BaiDuSpider
Disallow: /

User-agent: Java
Disallow: /

User-agent: VoilaBot
Disallow: /

Voici une partie du contenu de mon .htaccess

# Exemples : http://blamcast.net/articles/block-bots … p-htaccess
# Exemples : http://www.ybet.be/internet16/05-htaccess.php#domaine
# Exemples : http://www.coinduwebmaster.com/bloquer- … access/66/
order allow,deny
deny from cuil.com
deny from yandex.ru
deny from .cn
allow from all


RewriteEngine On
RewriteBase /
RewriteCond %{REMOTE_HOST} ^natcrawlbloc.* [OR]
RewriteCond %{HTTP_USER_AGENT} VoilaBot [OR]
RewriteCond %{HTTP_USER_AGENT} .*Atomic\_Email\_Hunter* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Filangy* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BackWeb* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BackStreet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Bandit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Baiduspider* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BatchFTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Bullseye* [OR]
RewriteCond %{HTTP_USER_AGENT} .*bumblebee* [OR]
RewriteCond %{HTTP_USER_AGENT} .*capture* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPicker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPickrElite* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPickerSE* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ChinaClaw* [OR]
RewriteCond %{HTTP_USER_AGENT} .*clipping* [OR]
RewriteCond %{HTTP_USER_AGENT} .*collage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Collector* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Copier* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Crescent* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*crawler* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Download* [OR]
RewriteCond %{HTTP_USER_AGENT} .*eCatch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*exabot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EirGrabber* [OR]
RewriteCond %{HTTP_USER_AGENT} .*email* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EmeraldShield* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*FlashGet* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*FlickBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*FrontPage* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GetRight* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GetSmart* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GetWeb* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GetWebPage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*gigabaz* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Go!Zilla* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GornKer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*gotit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Grabber* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GrabNet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*hloader* [OR]
RewriteCond %{HTTP_USER_AGENT} .*httpdown* [OR]
RewriteCond %{HTTP_USER_AGENT} .*InterGET* [OR]
RewriteCond %{HTTP_USER_AGENT} .*JustView* [OR]
RewriteCond %{HTTP_USER_AGENT} .*kapere* [OR]
RewriteCond %{HTTP_USER_AGENT} .*larbin* [OR]
RewriteCond %{HTTP_USER_AGENT} .*LeechFTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*LexiBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Missigua* [OR]
RewriteCond %{HTTP_USER_AGENT} .*MSIECrawler* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Vampire* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetAnts* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetMechanic* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Openfind* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PageGrabber* [OR]
RewriteCond %{HTTP_USER_AGENT} .*pavuk* [OR]
RewriteCond %{HTTP_USER_AGENT} .*pcBrowser* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PersonaPilot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PingALink* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Python-urllib* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PycURL* [OR]
RewriteCond %{HTTP_USER_AGENT} .*RealDownload* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Reaper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Recorder* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ReGet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*replacer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SearchExpress* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SlySearch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SmartDownload* [OR]
RewriteCond %{HTTP_USER_AGENT} .*snagger* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Snake* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Stripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Sucker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SuperBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SuperHTTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Surfbot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Syntryx* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Teleport* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Telesoft* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetSpider* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebAuto* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebBandit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebCapture* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Webclipping* [OR]
RewriteCond %{HTTP_USER_AGENT} .*webcollage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebCopier* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebEMailExtrac* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebFetch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebIndexer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebLeacher* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebMiner* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebMirror* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebReaper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebSauger* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Website* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Webster* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebStripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebWhacker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebZIP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Wget* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Whacker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*whizbang* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Xenu*
RewriteRule .* - [F]

Bien entendu, à vous d'adapter selon VOTRE besoin.
Vous retrouverez mes sources dans le commentaire du dernier fichier.

Je passe de 2000 visites à 500 journalières. Bah oui, il faut laisser au moins Google fouiner un peu ^^


Ayez comme premier réflexe de consulter le wiki.
Ensuite, veuillez effectuer une recherche sur le forum avant de poser votre question.

LE FAIRE EST LE REVELATEUR DE L'ETRE

Hors ligne

#2 2010-04-20 17:05:08

VDigital
Former Piwigo Team
Paris (FR)
2005-05-04
15124

Re: Les vilains robots et autres aspirateurs => EXIT

Tout ne doit pas être jeter, ou il faut peut-être chercher un peu plus.
BaiDuSpider est l'équivalent de Google pour le Japon à ceci près qu'il référence beaucoup mieux les images.
http://www.baidu.jp/


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#3 2010-04-20 17:09:50

Gotcha
Equipe Piwigo
Pierrelatte (26)
2007-03-14
13324

Re: Les vilains robots et autres aspirateurs => EXIT

Mieux ?! Heu bah pas chez moi en tous cas. Et en plus le gain est absolument nul. Je n'ai jamais croisé un seul chinois qui ne soit pas un robots sur ma galerie. Et les photos qui dépasse les 2.000 vues j'en ai un certain nombre sur ma galerie à cause des pratiques de ces fichus robots idiots.

Si encore l'historique pouvait ne pas contenir compte de ces visiteurs spéciaux...

J'ai bien précisé que j'ai laissé 6 mois aux robots pour faire leur travail mais le gain étant telement faible pour une gène trop importante, j'ai décidé de sévir.


Ayez comme premier réflexe de consulter le wiki.
Ensuite, veuillez effectuer une recherche sur le forum avant de poser votre question.

LE FAIRE EST LE REVELATEUR DE L'ETRE

Hors ligne

#4 2010-04-20 17:13:30

tosca
Former Piwigo Team
Cévennes (Gard)
2006-09-23
3818

Re: Les vilains robots et autres aspirateurs => EXIT

VDigital a écrit:

BaiDuSpider est l'équivalent de Google pour le Japon ...

Gotcha a écrit:

Je n'ai jamais croisé un seul chinois qui ne soit pas un robots sur ma galerie.

Il y a sûrement un certain nombre de Chinois au Japon, mais est-ce bien çà le problème ? :lol:

Dernière modification par tosca (2010-04-20 17:14:10)

Hors ligne

#5 2010-04-20 17:16:11

Gotcha
Equipe Piwigo
Pierrelatte (26)
2007-03-14
13324

Re: Les vilains robots et autres aspirateurs => EXIT

Baidu est bien chinois à l'origine.
http://ir.baidu.com/phoenix.zhtml?c=188 … omeprofile

Mais il a aussi des serveurs aux Japon
http://www.baidu.jp/


Ayez comme premier réflexe de consulter le wiki.
Ensuite, veuillez effectuer une recherche sur le forum avant de poser votre question.

LE FAIRE EST LE REVELATEUR DE L'ETRE

Hors ligne

#6 2010-04-21 22:44:46

bg62
Membre
2010-03-25
194

Re: Les vilains robots et autres aspirateurs => EXIT

il y a aussi ceci :
http://www.tutoriaux-excalibur.com/anti-aspirateur.htm
mais certaines lignes sont à annuler quand même ...

Hors ligne

#7 2010-04-21 23:04:13

Gotcha
Equipe Piwigo
Pierrelatte (26)
2007-03-14
13324

Re: Les vilains robots et autres aspirateurs => EXIT

Je vois par exemple :
RewriteCond %{HTTP_USER_AGENT} ^Mozilla$ [OR]

C'est une blague ou ça bloque bien Firefox ???


Ayez comme premier réflexe de consulter le wiki.
Ensuite, veuillez effectuer une recherche sur le forum avant de poser votre question.

LE FAIRE EST LE REVELATEUR DE L'ETRE

Hors ligne

#8 2010-04-21 23:38:58

tosca
Former Piwigo Team
Cévennes (Gard)
2006-09-23
3818

Re: Les vilains robots et autres aspirateurs => EXIT

Gotcha a écrit:

ça bloque bien Firefox ???

Je pense qu'il s'agit plutôt de réécriture d'URL : documentation Apache

Dernière modification par tosca (2010-04-22 00:16:16)

Hors ligne

#9 2010-04-21 23:59:12

nicolas
Former Piwigo Team
2004-12-30
1526

Re: Les vilains robots et autres aspirateurs => EXIT

Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.
J'ai un robot impossible à bloquer : wget.


Donnez du peps à vos tags
Laissez vos visiteurs vous aidez à tagger vos images avec user_tags

Hors ligne

#10 2010-04-22 01:02:20

VDigital
Former Piwigo Team
Paris (FR)
2005-05-04
15124

Re: Les vilains robots et autres aspirateurs => EXIT

nicolas a écrit:

Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.
J'ai un robot impossible à bloquer : wget.

MDR.

Mais tout le monde n'aura pas forcément compris le sens de ta remarque. Tu devrais dire pourquoi.
Après on demandera à P@t d'expliquer la réponse de Piwigo.


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#11 2010-04-22 10:03:05

nicolas
Former Piwigo Team
2004-12-30
1526

Re: Les vilains robots et autres aspirateurs => EXIT

VDigital a écrit:

nicolas a écrit:

Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.
J'ai un robot impossible à bloquer : wget.

MDR.

Mais tout le monde n'aura pas forcément compris le sens de ta remarque. Tu devrais dire pourquoi.
Après on demandera à P@t d'expliquer la réponse de Piwigo.

wget est un outil qui permet de télécharger des fichiers en utilisant divers protocoles http, https, ftp. Il est hautement paramètrable pour spécifier le user-agent par exemple. On peut faire des pauses entre les pages ....

http://www.gnu.org/software/wget/

Dernière modification par nicolas (2010-04-22 10:03:50)


Donnez du peps à vos tags
Laissez vos visiteurs vous aidez à tagger vos images avec user_tags

Hors ligne

#12 2010-04-22 11:04:58

Gotcha
Equipe Piwigo
Pierrelatte (26)
2007-03-14
13324

Re: Les vilains robots et autres aspirateurs => EXIT

nicolas a écrit:

VDigital a écrit:

nicolas a écrit:

Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.
J'ai un robot impossible à bloquer : wget.

MDR.

Mais tout le monde n'aura pas forcément compris le sens de ta remarque. Tu devrais dire pourquoi.
Après on demandera à P@t d'expliquer la réponse de Piwigo.

wget est un outil qui permet de télécharger des fichiers en utilisant divers protocoles http, https, ftp. Il est hautement paramètrable pour spécifier le user-agent par exemple. On peut faire des pauses entre les pages ....

http://www.gnu.org/software/wget/

Donc avec ton wget tu peux aspirer mon site ?


Ayez comme premier réflexe de consulter le wiki.
Ensuite, veuillez effectuer une recherche sur le forum avant de poser votre question.

LE FAIRE EST LE REVELATEUR DE L'ETRE

Hors ligne

#13 2010-04-22 11:17:49

bg62
Membre
2010-03-25
194

Re: Les vilains robots et autres aspirateurs => EXIT

nicolas a écrit:

Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.

et après on retrouve son travail ailleurs, parfois en copie conforme, et là il faut intervenir ! alors mieux vaut éviter ça ... "STOP"
d'autant plus également que chez certains hébergeurs, les 'aspirateurs de site' consomme une sacrée quantité de bande passante qui parfois peut entraîner une facture supplémentaire ...

Hors ligne

#14 2010-04-22 11:46:32

VDigital
Former Piwigo Team
Paris (FR)
2005-05-04
15124

Re: Les vilains robots et autres aspirateurs => EXIT

Gotcha a écrit:

nicolas a écrit:

.../...
wget est un outil qui permet de télécharger des fichiers en utilisant divers protocoles http, https, ftp. Il est hautement paramètrable pour spécifier le user-agent par exemple. On peut faire des pauses entre les pages ....

http://www.gnu.org/software/wget/

Donc avec ton wget tu peux aspirer mon site ?

Pas le php, ni la base de données mais les images publiques au moins c'est sans problème.


Vincent -« Plus vidéaste averti que photographe amateur... »
La galerie - Le blog   

Piwigo est une application libre de gestion de photos en ligne.

Hors ligne

#15 2010-04-22 12:01:37

nicolas
Former Piwigo Team
2004-12-30
1526

Re: Les vilains robots et autres aspirateurs => EXIT

bg62 a écrit:

nicolas a écrit:

Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.

et après on retrouve son travail ailleurs, parfois en copie conforme, et là il faut intervenir ! alors mieux vaut éviter ça ... "STOP"
d'autant plus également que chez certains hébergeurs, les 'aspirateurs de site' consomme une sacrée quantité de bande passante qui parfois peut entraîner une facture supplémentaire ...

Tu mélanges deux choses, le fait que d'autres réutilisent ton contenu et le fait qu'on le télécharge. Si tu mets ton contenu en ligne, il est impossible d'empêcher de le récupérer.

Gotcha a écrit:

Donc avec ton wget tu peux aspirer mon site ?

Oui. Je peux télécharger tout le contenu tel que le voit tes visiteurs.


Donnez du peps à vos tags
Laissez vos visiteurs vous aidez à tagger vos images avec user_tags

Hors ligne

Pied de page des forums

Propulsé par FluxBB

github twitter facebook newsletter Faire un don Piwigo.org © 2002-2019 · Contact