Get webhook notifications whenever Network & Infrastructure creates an incident, updates an incident, resolves an incident or changes a component status.
Nous rencontrons un défaut sur la distribution électrique, plusieurs salles sont impactées.
Nos équipes sont sur place pour corriger la situation.
Plus de détails à venir.
We are encountering an issue on the electrical distribution in Gravelines, more than one room is impacted.
Our teams are on site to resolve the issue.
More details to come.
Update(s):
Date: 2018-01-24 18:37:08 UTC Last affected server has just been fixed
Date: 2018-01-24 17:12:52 UTC 9 Servers Left
Date: 2018-01-24 16:45:53 UTC 15 Servers Left
Date: 2018-01-24 15:15:24 UTC 16 Servers Left
Date: 2018-01-24 14:11:45 UTC 20 Servers Left
Date: 2018-01-24 13:14:58 UTC 29 servers left
Date: 2018-01-24 11:59:56 UTC 38 servers left
Date: 2018-01-24 11:02:02 UTC 47 Server left
Date: 2018-01-24 10:21:43 UTC 53 server left
Date: 2018-01-24 09:22:39 UTC 61 Server left
Date: 2018-01-24 08:17:32 UTC 69 Server left
Date: 2018-01-24 07:19:45 UTC 78 Server left
Date: 2018-01-24 06:10:29 UTC 89 Server left
Date: 2018-01-24 05:40:31 UTC 95 Server left
Date: 2018-01-24 04:20:52 UTC 109 server left.
Date: 2018-01-24 04:03:07 UTC Bonjour,
Dans le datacentre GRA, nous avons plusieurs dizaines
d'onduleurs (UPS). L'un de ces UPS, UPS7, a eu un
défaut important à 23h02. En cas de défaut, l'onduleur
automatiquement prend la décision de s'isoler du réseau
électrique en laissant passer le courant entre le TGBT
et les baies, en direct, en mode \"by-pass\".
A 23h02, l'UPS7 s'est donc isolé en laissant alimenter
les baies par le TGBT en direct, sans l'onduleur. Mais
le défaut sur l'onduleur étant important, l'opération
de l'isolation a provoqué la disjonction du TGBT lui-même.
L'UPS7 alimente plusieurs containers en voie B. Il n'y
a pas eu de conséquence sur tous ces containers puisqu'un
autre onduleur UPS8 continuait à alimenter ces containers
via la voie A. Nous avons eu un impact sur la rangée B dans
3 containers, G117, G125, G126. L'ensemble de serveurs
qui se situent dans la rangée B de ces 3 containers ont
ont été impactés durant la panne.
Nous n'avons pas voulu remettre en route le TGBT sans
avoir fait un diagnostique profond du réseau électrique
derrière le TGBT qui a disjoncté. On peut avoir différents
\"root cause\" de la disjonction et on voulait s'assurer
que la \"root cause\" se situait bien dans l'onduleur.
L'expert est arrivé sur le site 0h40. L'inspection a
durée 1h30, nous avons vérifié l'ensemble du réseau
électrique. Nous avons remis en route progressivement
le TGBT entre 2h17 et 2h38. Les services qui sont en
train d'être remis en route.
Depuis 2 ans, dans l'ensemble de nos datacentres nous
déployons le standard électrique basé sur 2 arrivées
électriques totalement redondés par baie. Lors de cet
incident, 4 containers ont continué à fonctionner sans
souci. Par contre jusqu'au 2015, 50% des infrastructures
ont été déployées suivant un autre standard basé sur une
seule arrivée électrique par baie. Cet autre standard
nous ne utilisons plus depuis 2015. En novembre 2017,
nous avons pris la décision de recenser toutes les baies
dans l'ensemble de nos datacentres qui ont été déployées
suivant cet autre standard. Nous allons upgrader le
réseau électrique dans ces baies pour avoir partout chez
Ovh uniquement le standard basé sur 2 arrivées électrique.
Ce sont des travaux très lourds qui vont commencer bientôt
et vont consister à déployer des nouveaux TGBT/UPS dans
certains anciens datacentres et déployer une 2eme arrivée
électrique dans chaque baie qui n'a qu'une arrivée électrique.
Le réseau électrique de la rangée B de containers G117, G125,
G126 sera upgradé lors de ces travaux qui seront menés
dans quelques mois.
Nous sommes vraiment désolés pour cette panne.
Amicalement
Octave
Date: 2018-01-24 03:26:08 UTC 169 serveur left.
Date: 2018-01-24 02:38:22 UTC Actually : 367 servers down.
Date: 2018-01-24 02:20:32 UTC Our experts bypassed the defective UPS in order to power the rooms powered by the UPS.
570 servers still down.
Our teams are working to bring those servers back up as fast as they can.
Date: 2018-01-24 01:53:00 UTC Nos experts sur place ont ByPass l'onduleur en défaut afin de pouvoir réalimenté les différentes salles géré par cet onduleur.
Actuellement 570 serveurs en pannes.
Nos équipes font le maximum pour remettre en services les serveurs.