#1 2014-11-24 09:09:24

Mascarille
Membre
Lyon Avignon
2009-12-21
807

Accès moteurs de recherche

Bonjour,

Dimanche 24 novembre vers 19h, j'ai commencé à recevoir des alertes sur la charge de mon serveur. J'utilise Nagios, mais aussi un chien de garde en python qui fait des accès tous les 1/4 d'heure et contrôle les temps de réponse sur les différents sites que je gère (chez moi... ou que j'ai confié à piwigo.com).

AU début, je n'ai pas réagi car cela arrive de temps en temps sur de multiples accès aléatoires ou lorsque je charge des photos en grand nombre et que piwigo doit calculer les tailles multiples de photos.

A 20h, le problème n’étant pas réglé j'ai vérifié qu'Apache revenait à une charge correcte si je verrouillais mes galeries. J'ai donc plongé dans les logs pour voir de quoi il s'agissait. En ayant en tête l'alerte sécurité de piwigo récente... on a vite fait de se faire du cinéma !

J'ai trouvé des milliers  d'accès par 207.46.13.80 et 157.55.39.xxx c'est à dire msnbot.
Au point de mettre le serveur (machine dédiée : i7 - 32 meg - SSD) en charge à 100 %. Sympa !

J'ai découvert que je n'étais pas le seul http://kubx.fr/ralentir-msn-bot-avec-cr … s-txt-881/

En ce qui me concerne, j'ai préféré me connecter au web master tools de MSN http://www.bing.com/toolbox/webmaster

pour aller modifier le contrôle de l'analyse... voir pièce jointe.

Le "cirque" a quand même duré toute la nuit et je dois dire que je ne comprend pas pourquoi MSN pratique des mises à jour dignes d'une attaque par deni de service !

Je n'ai pas ce problème avec Google ou ses équivalents chinois ou russes...

Bonne journée à tous.


Photographe spectacle vivant : www.mascarille.com
Voyages : www.mascarille.com/tdm
Base de connaissance sur le théâtre : www.mascarille.fr
Photographes des Arts du Spectacle : www.passphotospectacle.com

Hors ligne

#2 2014-11-24 10:18:54

flop25
Équipe Piwigo
2006-07-06
6544

Re: Accès moteurs de recherche

Salut
Bing est connu pour être le pire crawler en plus d'être un mauvais moteur de recherche ; Pierrick te racontera aussi qu'il a connu des mésaventures de ce genre, et moi aussi !

Dernière modification par flop25 (2014-11-30 13:24:12)

Hors ligne

#3 2014-11-30 10:14:05

Mascarille
Membre
Lyon Avignon
2009-12-21
807

Re: Accès moteurs de recherche

Bonjour,
Tout ça pour ça :

- Pages indexées sur Google    26400 Pages
- Pages indexées sur Bing                   72 Pages

Bon dimanche


Photographe spectacle vivant : www.mascarille.com
Voyages : www.mascarille.com/tdm
Base de connaissance sur le théâtre : www.mascarille.fr
Photographes des Arts du Spectacle : www.passphotospectacle.com

Hors ligne

#4 2015-01-20 14:36:43

Mascarille
Membre
Lyon Avignon
2009-12-21
807

Re: Accès moteurs de recherche

Bonjour,
La meilleure de l'année (qui ne fait que commencer, on risque de s'améliorer !)

Je reçois ce courriel

Alerte de courtoisie sur mascarille.com
Site: http://mascarille.com/
Date: 14/12/2014
Priorité: Normale
Le paramètre de délai d'analyse défini dans robots.txt empêche Bing de réaliser des analyses efficaces. Veuillez supprimer ce paramètre du fichier robots.txt. Vérifiez aussi que le paramètre de fréquence d'analyse configuré dans la page Paramètres d'analyse des Outils pour webmasters de Bing est optimal.
Merci,
L’équipe des Administrateurs Web Bing


Pour mémoire (voir 1er message) sans le paramètre dans robot txt l'accès par les moteurs de recherche Bing mettait à genoux une machine dédiée avec un processeur i7.
Encore aujourd'hui, Bing qui - heureusement ! - respecte l'écart de 10 secondes entre chaque accès placé dans robot.txt reste de très loin le robot le plus actif pour référencer... 72 images contre 26 000 pour Google !

Sur le graphique joint réalisé sur 7 jours c'est la ligne bleue/verte (Nombre d'accès par minute des principaux robots).

Bonne journée

Dernière modification par Mascarille (2015-01-20 14:38:32)


Photographe spectacle vivant : www.mascarille.com
Voyages : www.mascarille.com/tdm
Base de connaissance sur le théâtre : www.mascarille.fr
Photographes des Arts du Spectacle : www.passphotospectacle.com

Hors ligne

#5 2016-08-22 23:25:14

GuillaumeDepreze
Membre
2016-08-22
11

Re: Accès moteurs de recherche

Hello !

Etant nouveau dans la communauté je fais un Edit sur le post ;)
Vous en êtes où du coup ?

Hors ligne

#6 2016-09-29 18:39:18

Mascarille
Membre
Lyon Avignon
2009-12-21
807

Re: Accès moteurs de recherche

Bonjour

J'ai laissé dans robots.txt les paramètres suivants
User-agent: MSNbot
Crawl-delay: 10

J'avoue ne pas être retourné voir la charge correspondant à Bing.

Pour www.mascarille.com état de l'indexation :
- sur Bing webmaster, ça s'améliore doucement : 1484 pages indexées contre 72 fin 2014,
- mais 23 090 pages indexées par Google.

Là où je suis très étonné, c'est que Bing a fait sa dernière analyse le 26/08/2016... Comment voulez-vous qu'il soit à jour pour un site qui change quotidiennement ?

mascarille.com est un portail  de photographes professionnels spécialisés "spectacle vivant", théâtre, musique, danse. En ce moment c'est la biennale de la danse de Lyon, nous rajoutons plusieurs spectacles par jour...

Grace à piwik, il est possible de connaître la provenance d'un accès quand il arrive d'un moteur de recherche (pour les personnes qui n'ont pas bloqué le traçage de leurs requêtes).
Pour le mois de septembre (1er au 29, incomplet donc).

- Google images   1 018
- Google                 300
- Yandex                  94
- Bing                        4
- Bing image              1

CQFD...

Bonne soirée


Photographe spectacle vivant : www.mascarille.com
Voyages : www.mascarille.com/tdm
Base de connaissance sur le théâtre : www.mascarille.fr
Photographes des Arts du Spectacle : www.passphotospectacle.com

Hors ligne

Pied de page des forums

Propulsé par FluxBB

github twitter newsletter Faire un don Piwigo.org © 2002-2024 · Contact