Bonjour,
Dimanche 24 novembre vers 19h, j'ai commencé à recevoir des alertes sur la charge de mon serveur. J'utilise Nagios, mais aussi un chien de garde en python qui fait des accès tous les 1/4 d'heure et contrôle les temps de réponse sur les différents sites que je gère (chez moi... ou que j'ai confié à piwigo.com).
AU début, je n'ai pas réagi car cela arrive de temps en temps sur de multiples accès aléatoires ou lorsque je charge des photos en grand nombre et que piwigo doit calculer les tailles multiples de photos.
A 20h, le problème n’étant pas réglé j'ai vérifié qu'Apache revenait à une charge correcte si je verrouillais mes galeries. J'ai donc plongé dans les logs pour voir de quoi il s'agissait. En ayant en tête l'alerte sécurité de piwigo récente... on a vite fait de se faire du cinéma !
J'ai trouvé des milliers d'accès par 207.46.13.80 et 157.55.39.xxx c'est à dire msnbot.
Au point de mettre le serveur (machine dédiée : i7 - 32 meg - SSD) en charge à 100 %. Sympa !
J'ai découvert que je n'étais pas le seul http://kubx.fr/ralentir-msn-bot-avec-cr … s-txt-881/
En ce qui me concerne, j'ai préféré me connecter au web master tools de MSN http://www.bing.com/toolbox/webmaster
pour aller modifier le contrôle de l'analyse... voir pièce jointe.
Le "cirque" a quand même duré toute la nuit et je dois dire que je ne comprend pas pourquoi MSN pratique des mises à jour dignes d'une attaque par deni de service !
Je n'ai pas ce problème avec Google ou ses équivalents chinois ou russes...
Bonne journée à tous.
Hors ligne
Salut
Bing est connu pour être le pire crawler en plus d'être un mauvais moteur de recherche ; Pierrick te racontera aussi qu'il a connu des mésaventures de ce genre, et moi aussi !
Dernière modification par flop25 (2014-11-30 13:24:12)
Hors ligne
Bonjour,
Tout ça pour ça :
- Pages indexées sur Google 26400 Pages
- Pages indexées sur Bing 72 Pages
Bon dimanche
Hors ligne
Bonjour,
La meilleure de l'année (qui ne fait que commencer, on risque de s'améliorer !)
Je reçois ce courriel
Alerte de courtoisie sur mascarille.com
Site: http://mascarille.com/
Date: 14/12/2014
Priorité: Normale
Le paramètre de délai d'analyse défini dans robots.txt empêche Bing de réaliser des analyses efficaces. Veuillez supprimer ce paramètre du fichier robots.txt. Vérifiez aussi que le paramètre de fréquence d'analyse configuré dans la page Paramètres d'analyse des Outils pour webmasters de Bing est optimal.
Merci,
L’équipe des Administrateurs Web Bing
Pour mémoire (voir 1er message) sans le paramètre dans robot txt l'accès par les moteurs de recherche Bing mettait à genoux une machine dédiée avec un processeur i7.
Encore aujourd'hui, Bing qui - heureusement ! - respecte l'écart de 10 secondes entre chaque accès placé dans robot.txt reste de très loin le robot le plus actif pour référencer... 72 images contre 26 000 pour Google !
Sur le graphique joint réalisé sur 7 jours c'est la ligne bleue/verte (Nombre d'accès par minute des principaux robots).
Bonne journée
Dernière modification par Mascarille (2015-01-20 14:38:32)
Hors ligne
Hello !
Etant nouveau dans la communauté je fais un Edit sur le post ;)
Vous en êtes où du coup ?
Hors ligne
Bonjour
J'ai laissé dans robots.txt les paramètres suivants
User-agent: MSNbot
Crawl-delay: 10
J'avoue ne pas être retourné voir la charge correspondant à Bing.
Pour www.mascarille.com état de l'indexation :
- sur Bing webmaster, ça s'améliore doucement : 1484 pages indexées contre 72 fin 2014,
- mais 23 090 pages indexées par Google.
Là où je suis très étonné, c'est que Bing a fait sa dernière analyse le 26/08/2016... Comment voulez-vous qu'il soit à jour pour un site qui change quotidiennement ?
mascarille.com est un portail de photographes professionnels spécialisés "spectacle vivant", théâtre, musique, danse. En ce moment c'est la biennale de la danse de Lyon, nous rajoutons plusieurs spectacles par jour...
Grace à piwik, il est possible de connaître la provenance d'un accès quand il arrive d'un moteur de recherche (pour les personnes qui n'ont pas bloqué le traçage de leurs requêtes).
Pour le mois de septembre (1er au 29, incomplet donc).
- Google images 1 018
- Google 300
- Yandex 94
- Bing 4
- Bing image 1
CQFD...
Bonne soirée
Hors ligne