Get webhook notifications whenever Network & Infrastructure creates an incident, updates an incident, resolves an incident or changes a component status.
L'un des onduleurs de la salle 26 a été en défaut pendant quelques secondes.
C'est up. Et les serveurs sont en train de revenir.
Nous mettons les resources sur les serveurs en défaut.
En regarde en parallele l'origine du probleme.
Update(s):
Date: 2010-10-01 10:50:03 UTC Le contexte:
En cas de coupure électrique, une fois les groupes électrogènes démarrés, les UPS sont programmés pour se réalimenter progressivement (suivant une rampe d'intensité pendant 1 minute). Ceci permet la montée en charge progressive des groupes électrogènes.
Le problème:
On soupçonne un bug logiciel au moment où l'UPS effectue la rampe. Les logs indiquent que quelque-soit le temps de coupure, l'UPS reste en décharge pendant 4 minutes supplémentaires ! Il suffit ainsi de quelques micro-coupures en peu de temps pour décharger complètement les batteries... C'est ce qui s'est passé.
Le constructeur doit mener ses investigations. En attendant et par prévention, nous allons désactiver la fonctionnalité de rampe sur tous les onduleurs (et simuler le comportement en décalant de quelques secondes la recharge de chacun des UPS).
Date: 2010-09-30 18:04:19 UTC encore 63 serveurs. après les serveurs qui reviennent seuls,
on a reglé tous les problemes de \"check de disques/ctrl-d\".
il reste que des cas très tordu avec les configurations au
boot qui sont cassés. on les fixe un par un. ça va prendre
du temps.
Date: 2010-09-30 14:49:34 UTC L'onduleur a planté et a rebooté ... tout simplement.
Le constructeur arrive sur le site pour nous expliquer
l'origine du plantage.