OVHCloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
RBX
Incident Report for Network & Infrastructure
Resolved
Il y a eu un flap optique à RBX.

Nous investiguons

English version: http://status.ovh.net/?do=details&id=15229

Update(s):

Date: 2017-12-07 01:37:12 UTC
Les 600G entre RBX et GSW viennent d'etre UP

Date: 2017-12-07 00:09:51 UTC
tous les liens sont UP.

Nous sommes sincèrement désolés pour cette panne.
Nous allons tirer toutes les conséquences pour
éviter que ça ne se reproduise.

Date: 2017-12-07 00:05:27 UTC
Les liens vers le POP de BRU sont de nouveaux UP

Date: 2017-12-07 00:05:10 UTC
Nous avons actuellement 600G entre RBX et AMS

Date: 2017-12-06 23:54:44 UTC
Nous venons de faire remonter 100G supplémentaire entre RBX et AMS

Date: 2017-12-06 23:23:22 UTC
RBX <> SBG en direct UP

Date: 2017-12-06 23:12:31 UTC
RBX<>LDN: 400G UP

Date: 2017-12-06 23:08:31 UTC
nous avons remonté les liens RBX <> BHS également

Date: 2017-12-06 23:06:27 UTC
nous remontons les liens RBX<>LDN, il y a 400G actuellement

Date: 2017-12-06 22:28:26 UTC
RBX<>FRA 400G UP

Date: 2017-12-06 21:51:26 UTC
4 autres circuits sont UP.

On reconstruit les autres circuits qui sont encore down.

Date: 2017-12-06 21:43:07 UTC
4 circuits GSW<>RBX sont UP. on reactive les autres.

Date: 2017-12-06 21:32:26 UTC
On reconstruit les circuits à la main Paris <> RBX.
Sous quelques minutes on devrait avoir 400G de
capacité UP ce qui va réduire les latences dans le
réseau.

Date: 2017-12-06 21:24:16 UTC
isolation of VAC Roubaix to reduce saturation

Date: 2017-12-06 21:23:46 UTC
Isolation du VAC de Roubaix afin de diminuer la saturation

Date: 2017-12-06 21:12:23 UTC
Isolation du trafic entre Amsterdam et Varsovie afin de diminuer la saturation

Date: 2017-12-06 21:10:33 UTC
La configuration est en place mais ça ne fonctionne pas.
On efface chaque configuration et on les reconstruit à
à la main.

RBX<>LDN: UP

Date: 2017-12-06 20:49:57 UTC
Bonsoir,
Le 9 novembre, nous avons rencontré un gros probleme
sur notre réseau optique à RBX. Le probleme était lié
à un bug software sur les équipements que nous utilisons
qui a provoqué l'effacement de la configuration.

Depuis, nous avons mis à jour les équipements sur tout
notre réseau. Aussi pour éviter que ce type de bug ne
provoque plus jamais un souci sur nos DCs, nous avons
décidé de diviser les clusters des équipements en 3
sur le site de RBX. Ainsi, si jamais on a à nouveau
ce bug, la configuration impacterait uniquement 30%
de trafic.

Lors de la préparation de la maintenance qui devait
débuter à 23h00, la configuration a disparu à nouveau
à 20h20 et tous les liens ont été à nouveau down. !!!!!
La base de données a été effacé alors que nous utilisons
la dernière version software. Donc il y a un autre bug !
http://travaux.ovh.net/?do=details&id=28835

Nous avons au plus vite remis la configuration. Certains
liens sont revenus, mais pas encore tous. Actuellement
le trafic passe Paris > GRA > AMS > RBX au lieu de
directement Paris > RBX. D'où les latences importantes.

On regarde avec Cisco pour comprendre pourquoi tous
les liens ne sont pas UP alors que la configuration été
remise à RBX.

Nous n'allons pas faire l'intervention cette nuit.
Je veux comprendre pourquoi la configuration s'efface
et comment on peut faire cette maintenance sans qu'on
ait à nouveau le moindre souci sur la production !

Amicalement
Octave



Date: 2017-12-06 20:32:17 UTC
Nous coupons AMSIX/Worldstream temporairement.

Date: 2017-12-06 20:18:30 UTC
Nous remontons les liens 100G vers RBX.

Pour l'instant, nous constatons une saturation entre RBX et AMS.

Date: 2017-12-06 20:01:49 UTC
Nous confirmons un soucis avec le noeud optique de Roubaix.
Posted Dec 06, 2017 - 19:44 UTC
This incident affected: Datacenters || RBX (RBX1, RBX2, RBX3, RBX4, RBX5, RBX6, RBX7, RBX8).