Bonjour,
Je suis en train de tester (avec succès) quelques parades pour éviter de voir les statistiques et l'historique de ma galerie augmenter de quelques 2000 à 3000 visites par jour !
Les coupables sont identifiés grâce notamment à [extension by VDigital] Whois Online qui me permet de vite me rendre compte des des robots chinois et américain visites ma galerie mais à 90% des cas sur les même photos !!!
Au bout de 6 mois d'observations, et ne voyant pas de véritables visiteurs provenant de ces pays, j'ai décidé de faire le ménage.
J'ai joué sur deux fichiers.
- robots.txt
- .htaccess
Le second reprendra certaines règles du premier car les robots ne respectent les recommandations que lorsque ça les arranges...
Voici le contenu de mon robots.txt
User-agent: *
Disallow: /template
Disallow: /language
Disallow: /_data
Disallow: /tools
Disallow: /slideshow
Disallow: /admin
Disallow: /install
Disallow: /cgi-bin
Disallow: /include
Disallow: /template-extension
Disallow: /plugins
Disallow: /doc
Disallow: /template-common
User-agent: baiduspider
Disallow: /
User-agent: BaiDuSpider
Disallow: /
User-agent: Java
Disallow: /
User-agent: VoilaBot
Disallow: /
Voici une partie du contenu de mon .htaccess
# Exemples : http://blamcast.net/articles/block-bots … p-htaccess
# Exemples : http://www.ybet.be/internet16/05-htaccess.php#domaine
# Exemples : http://www.coinduwebmaster.com/bloquer- … access/66/
order allow,deny
deny from cuil.com
deny from yandex.ru
deny from .cn
allow from all
RewriteEngine On
RewriteBase /
RewriteCond %{REMOTE_HOST} ^natcrawlbloc.* [OR]
RewriteCond %{HTTP_USER_AGENT} VoilaBot [OR]
RewriteCond %{HTTP_USER_AGENT} .*Atomic\_Email\_Hunter* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*HTTrack* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Filangy* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BackWeb* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BackStreet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Bandit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Baiduspider* [OR]
RewriteCond %{HTTP_USER_AGENT} .*BatchFTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Bullseye* [OR]
RewriteCond %{HTTP_USER_AGENT} .*bumblebee* [OR]
RewriteCond %{HTTP_USER_AGENT} .*capture* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPicker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPickrElite* [OR]
RewriteCond %{HTTP_USER_AGENT} .*CherryPickerSE* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ChinaClaw* [OR]
RewriteCond %{HTTP_USER_AGENT} .*clipping* [OR]
RewriteCond %{HTTP_USER_AGENT} .*collage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Collector* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Copier* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Crescent* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*crawler* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*Download* [OR]
RewriteCond %{HTTP_USER_AGENT} .*eCatch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*exabot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EirGrabber* [OR]
RewriteCond %{HTTP_USER_AGENT} .*email* [OR]
RewriteCond %{HTTP_USER_AGENT} .*EmeraldShield* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*FlashGet* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*FlickBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*FrontPage* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GetRight* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GetSmart* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GetWeb* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GetWebPage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*gigabaz* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Go!Zilla* [OR]
RewriteCond %{HTTP_USER_AGENT} .*GornKer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*gotit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Grabber* [NC,OR]
RewriteCond %{HTTP_USER_AGENT} .*GrabNet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*hloader* [OR]
RewriteCond %{HTTP_USER_AGENT} .*httpdown* [OR]
RewriteCond %{HTTP_USER_AGENT} .*InterGET* [OR]
RewriteCond %{HTTP_USER_AGENT} .*JustView* [OR]
RewriteCond %{HTTP_USER_AGENT} .*kapere* [OR]
RewriteCond %{HTTP_USER_AGENT} .*larbin* [OR]
RewriteCond %{HTTP_USER_AGENT} .*LeechFTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*LexiBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Missigua* [OR]
RewriteCond %{HTTP_USER_AGENT} .*MSIECrawler* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Vampire* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetAnts* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetMechanic* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Openfind* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PageGrabber* [OR]
RewriteCond %{HTTP_USER_AGENT} .*pavuk* [OR]
RewriteCond %{HTTP_USER_AGENT} .*pcBrowser* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PersonaPilot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PingALink* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Python-urllib* [OR]
RewriteCond %{HTTP_USER_AGENT} .*PycURL* [OR]
RewriteCond %{HTTP_USER_AGENT} .*RealDownload* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Reaper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Recorder* [OR]
RewriteCond %{HTTP_USER_AGENT} .*ReGet* [OR]
RewriteCond %{HTTP_USER_AGENT} .*replacer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SearchExpress* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SlySearch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SmartDownload* [OR]
RewriteCond %{HTTP_USER_AGENT} .*snagger* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Snake* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Stripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Sucker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SuperBot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*SuperHTTP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Surfbot* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Syntryx* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Teleport* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Telesoft* [OR]
RewriteCond %{HTTP_USER_AGENT} .*NetSpider* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebAuto* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebBandit* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebCapture* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Webclipping* [OR]
RewriteCond %{HTTP_USER_AGENT} .*webcollage* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebCopier* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebEMailExtrac* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebFetch* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebIndexer* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebLeacher* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebMiner* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebMirror* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebReaper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebSauger* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Website* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Webster* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebStripper* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebWhacker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*WebZIP* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Wget* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Whacker* [OR]
RewriteCond %{HTTP_USER_AGENT} .*whizbang* [OR]
RewriteCond %{HTTP_USER_AGENT} .*Xenu*
RewriteRule .* - [F]
Bien entendu, à vous d'adapter selon VOTRE besoin.
Vous retrouverez mes sources dans le commentaire du dernier fichier.
Je passe de 2000 visites à 500 journalières. Bah oui, il faut laisser au moins Google fouiner un peu ^^
Hors ligne
Tout ne doit pas être jeter, ou il faut peut-être chercher un peu plus.
BaiDuSpider est l'équivalent de Google pour le Japon à ceci près qu'il référence beaucoup mieux les images.
http://www.baidu.jp/
Hors ligne
Mieux ?! Heu bah pas chez moi en tous cas. Et en plus le gain est absolument nul. Je n'ai jamais croisé un seul chinois qui ne soit pas un robots sur ma galerie. Et les photos qui dépasse les 2.000 vues j'en ai un certain nombre sur ma galerie à cause des pratiques de ces fichus robots idiots.
Si encore l'historique pouvait ne pas contenir compte de ces visiteurs spéciaux...
J'ai bien précisé que j'ai laissé 6 mois aux robots pour faire leur travail mais le gain étant telement faible pour une gène trop importante, j'ai décidé de sévir.
Hors ligne
VDigital a écrit:
BaiDuSpider est l'équivalent de Google pour le Japon ...
Gotcha a écrit:
Je n'ai jamais croisé un seul chinois qui ne soit pas un robots sur ma galerie.
Il y a sûrement un certain nombre de Chinois au Japon, mais est-ce bien çà le problème ? :lol:
Dernière modification par tosca (2010-04-20 17:14:10)
Hors ligne
Baidu est bien chinois à l'origine.
http://ir.baidu.com/phoenix.zhtml?c=188 … omeprofile
Mais il a aussi des serveurs aux Japon
http://www.baidu.jp/
Hors ligne
il y a aussi ceci :
http://www.tutoriaux-excalibur.com/anti-aspirateur.htm
mais certaines lignes sont à annuler quand même ...
Hors ligne
Je vois par exemple :
RewriteCond %{HTTP_USER_AGENT} ^Mozilla$ [OR]
C'est une blague ou ça bloque bien Firefox ???
Hors ligne
Gotcha a écrit:
ça bloque bien Firefox ???
Je pense qu'il s'agit plutôt de réécriture d'URL : documentation Apache
Dernière modification par tosca (2010-04-22 00:16:16)
Hors ligne
Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.
J'ai un robot impossible à bloquer : wget.
Hors ligne
nicolas a écrit:
Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.
J'ai un robot impossible à bloquer : wget.
MDR.
Mais tout le monde n'aura pas forcément compris le sens de ta remarque. Tu devrais dire pourquoi.
Après on demandera à P@t d'expliquer la réponse de Piwigo.
Hors ligne
VDigital a écrit:
nicolas a écrit:
Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.
J'ai un robot impossible à bloquer : wget.MDR.
Mais tout le monde n'aura pas forcément compris le sens de ta remarque. Tu devrais dire pourquoi.
Après on demandera à P@t d'expliquer la réponse de Piwigo.
wget est un outil qui permet de télécharger des fichiers en utilisant divers protocoles http, https, ftp. Il est hautement paramètrable pour spécifier le user-agent par exemple. On peut faire des pauses entre les pages ....
http://www.gnu.org/software/wget/
Dernière modification par nicolas (2010-04-22 10:03:50)
Hors ligne
nicolas a écrit:
VDigital a écrit:
nicolas a écrit:
Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.
J'ai un robot impossible à bloquer : wget.MDR.
Mais tout le monde n'aura pas forcément compris le sens de ta remarque. Tu devrais dire pourquoi.
Après on demandera à P@t d'expliquer la réponse de Piwigo.wget est un outil qui permet de télécharger des fichiers en utilisant divers protocoles http, https, ftp. Il est hautement paramètrable pour spécifier le user-agent par exemple. On peut faire des pauses entre les pages ....
http://www.gnu.org/software/wget/
Donc avec ton wget tu peux aspirer mon site ?
Hors ligne
nicolas a écrit:
Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.
et après on retrouve son travail ailleurs, parfois en copie conforme, et là il faut intervenir ! alors mieux vaut éviter ça ... "STOP"
d'autant plus également que chez certains hébergeurs, les 'aspirateurs de site' consomme une sacrée quantité de bande passante qui parfois peut entraîner une facture supplémentaire ...
Hors ligne
Gotcha a écrit:
nicolas a écrit:
.../...
wget est un outil qui permet de télécharger des fichiers en utilisant divers protocoles http, https, ftp. Il est hautement paramètrable pour spécifier le user-agent par exemple. On peut faire des pauses entre les pages ....
http://www.gnu.org/software/wget/Donc avec ton wget tu peux aspirer mon site ?
Pas le php, ni la base de données mais les images publiques au moins c'est sans problème.
Hors ligne
bg62 a écrit:
nicolas a écrit:
Je n'arriverais certainement jamais à comprendre l'intérêt de perdre du temps et de l'énergie à faire ça.
et après on retrouve son travail ailleurs, parfois en copie conforme, et là il faut intervenir ! alors mieux vaut éviter ça ... "STOP"
d'autant plus également que chez certains hébergeurs, les 'aspirateurs de site' consomme une sacrée quantité de bande passante qui parfois peut entraîner une facture supplémentaire ...
Tu mélanges deux choses, le fait que d'autres réutilisent ton contenu et le fait qu'on le télécharge. Si tu mets ton contenu en ligne, il est impossible d'empêcher de le récupérer.
Gotcha a écrit:
Donc avec ton wget tu peux aspirer mon site ?
Oui. Je peux télécharger tout le contenu tel que le voit tes visiteurs.
Hors ligne