OVHcloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
gra1-17a/b-n6
Scheduled Maintenance Report for Network & Infrastructure
Completed
Nous allons mettre a jour ce couple de Nexus afin de corriger un dysfonctionnement qui a fortement impacte ce couple récemment (Eth_portSec HA).

L'intervention débutera a partir de 23h30/00h. Pas d'interruption de trafic puisque la mise a jour se fait a chaud.

Update(s):

Date: 2015-01-12 02:48:34 UTC
Les deux switchs sont a jours dans la dernière version disponible et devrait donc connaitre moins de dysfonctionnement. Nous ouvrons un case avec notre fournisseur afin de comprendre pourquoi la mise a chaud n'a pas parfaitement fonctionner.

gra1-17a-n6# sh version | i sys
system: version 7.0(5)N1(1a)

Date: 2015-01-12 02:33:55 UTC
Il ne reste plus qu'un serveur dans le monitoring. Les switchs sont actuellement en train de reappliquer la configuration sur leurs ports.

Date: 2015-01-12 02:06:59 UTC
La grande majorité des serveurs est en ligne, nous intervenons sur les machines restantes.

Date: 2015-01-12 02:03:09 UTC
Les deux switchs sont UP avec leurs tex, l'infrastructure se stabilise.

Date: 2015-01-12 01:54:02 UTC
Les fex remontent progressivement :

FEX FEX FEX FEX Fex
Number Description State Model Serial
------------------------------------------------------------------------
100 fex100 Offline N2K-C2248TP-E-1GE
101 fex101 Online N2K-C2248TP-E-1GE
102 fex102 Online N2K-C2248TP-E-1GE
103 fex103 Online N2K-C2248TP-E-1GE
104 fex104 Online N2K-C2248TP-E-1GE
105 fex105 Online N2K-C2248TP-E-1GE
106 fex106 Offline N2K-C2248TP-E-1GE
107 fex107 Online N2K-C2248TP-E-1GE
108 fex108 Online N2K-C2248TP-E-1GE
109 fex109 Online N2K-C2248TP-E-1GE
110 fex110 Online N2K-C2248TP-E-1GE
111 fex111|ASA Online N2K-C2248TP-E-1GE
112 fex112 Online N2K-C2248TP-E-1GE
113 fex113 Offline N2K-C2248TP-E-1GE
114 fex114 Online N2K-C2248TP-E-1GE
115 fex115 Online N2K-C2248TP-E-1GE
116 fex116 Online N2K-C2248TP-E-1GE
117 fex117 Online N2K-C2248TP-E-1GE
118 fex118 Online Sequence N2K-C2248TP-E-1GE
119 fex119 Offline N2K-C2248TP-E-1GE
120 fex120 Online N2K-C2248TP-E-1GE

Date: 2015-01-12 01:45:06 UTC
Alors que le second switch se mettait a jour a chaud (non disruptive), ce dernier a redémarre prématurément , coupant les fex;

2015 Jan 12 02:43:16 gra1-17b-n6 %$ VDC-1 %$ %SATCTRL-FEX100-2-SATCTRL_ISSU_FPORT_FLAP: Nif 0x20000000 flapped during switch ISSU
2015 Jan 12 02:43:52 gra1-17b-n6 %$ VDC-1 %$ %PFMA-2-FEX_STATUS: Fex 112 is offline (Serial number SSI173605LL)
2015 Jan 12 02:43:52 gra1-17b-n6 %$ VDC-1 %$ %PFMA-2-FEX_STATUS: Fex 115 is offline (Serial number SSI17360620)

Date: 2015-01-12 01:32:53 UTC
Le dernier fex se met a jour.

Install has been successful.

Date: 2015-01-12 01:06:13 UTC
Cette fois, la mise a jour fonctionne :

Module 100: Non-disruptive upgrading.
[# ] 0%

Date: 2015-01-12 00:53:13 UTC
Mise a jour du second switch en cours. Toujours non disruptive.

Date: 2015-01-12 00:44:52 UTC
Apres le downgrade du premier switch, des machines sont apparu dans le monitoring et ne sont actuellement plus accessible. Nous faisons notre possible pour réduire le dowtime

Date: 2015-01-12 00:17:19 UTC
Nous tentons un downgrade du système pour revenir dans un état stable et tenter la mise a jour a chaud depuis le second n6

Date: 2015-01-11 23:48:10 UTC
Nous tentons de nouveau la mise a jour. Pas de serveur dans le monitoring

Date: 2015-01-11 23:46:24 UTC
L'install n'est pas passe sur les fex.

-- FAIL. Return code 0x4200000E (Image download failed on the FEX).

Remaining action::
\"Module(s) 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120 still need to be upgraded\".

Install has failed. Return code 0x40930069 (Preload of module image failed).
Please identify the cause of the failure, and try 'install all' again.



Nous investiguons.

Date: 2015-01-11 23:40:34 UTC
Une erreur, on attend de voir ce que cela impact :

015 Jan 12 00:38:52 gra1-17a-n6 %$ VDC-1 %$ %SATCTRL-FEX102-2-SATCTRL_IMAGE: FEX102 Image update failed [/isan/plugin_img/fexth.bin]: File transfer error

Date: 2015-01-11 23:35:01 UTC
Les premiers fex se mettent a jour;

2015 Jan 12 00:34:03 gra1-17a-n6 %$ VDC-1 %$ %SATCTRL-FEX100-2-SATCTRL_IMAGE: FEX100 Image update in progress.
2015 Jan 12 00:34:14 gra1-17a-n6 %$ VDC-1 %$ %SATCTRL-FEX101-2-SATCTRL_IMAGE: FEX101 Image update in progress.
2015 Jan 12 00:34:24 gra1-17a-n6 %$ VDC-1 %$ %SATCTRL-FEX102-2-SATCTRL_IMAGE: FEX102 Image update in progress.

Aucun serveur dans le monitoring pour le moment

Date: 2015-01-11 23:30:53 UTC
Non disruptive :

Compatibility check is done:
Module bootable Impact Install-type Reason
------ -------- -------------- ------------ ------
1 yes non-disruptive reset
2 yes non-disruptive rolling
100 yes non-disruptive rolling
101 yes non-disruptive rolling
102 yes non-disruptive rolling
103 yes non-disruptive rolling
104 yes non-disruptive rolling
105 yes non-disruptive rolling
106 yes non-disruptive rolling
107 yes non-disruptive rolling
108 yes non-disruptive rolling
109 yes non-disruptive rolling
110 yes non-disruptive rolling
111 yes non-disruptive rolling
112 yes non-disruptive rolling
113 yes non-disruptive rolling
114 yes non-disruptive rolling
115 yes non-disruptive rolling
116 yes non-disruptive rolling
117 yes non-disruptive rolling
118 yes non-disruptive rolling
119 yes non-disruptive rolling
120 yes non-disruptive rolling




Date: 2015-01-11 23:25:44 UTC
Les n6 sont prêt

gra1-17b-n6# show system internal mts buffer
MTS buffers in use = 39

Mise a jour !

Date: 2015-01-11 22:40:03 UTC
Plus de diff de conf, le protocol de redondance est okay

gra1-17b-n6# sh vpc | i fail
gra1-17b-n6#

Les buffers descendent, nous allons bientôt pouvoir mettre a jour

gra1-17b-n6# show system internal mts buffer
MTS buffers in use = 460

Date: 2015-01-11 22:12:49 UTC
L'infrastructure est de retour dans un niveau stable . Nous attendons que les buffers se vident :

gra1-17b-n6# show system internal mts buffer
MTS buffers in use = 1022

Date: 2015-01-11 22:07:16 UTC
Nous coupons les robots afin qu'aucune modification ne puisse être apporte alors que nous opérons sur les équipements.

Date: 2015-01-11 21:55:44 UTC
Un redemarrage imprevu est apparu alors que nous sauvegardions la configuration.

Date: 2015-01-11 21:50:59 UTC
Nous reloadons le second switch afin que celui ci puissent bénéficier de la mise a jour a chaud. En effet pour l'instant, une des licences installée l'empêche d'etre mis a jour sans coupure.

Aucune coupure de trafic a prévoir puisque le second switch va prendre le relai.

Date: 2015-01-11 09:49:59 UTC
L'ensemble des configuration a été vérifiée. Nous interviendrons ce soir a partir de 22h30 pour mettre a jours les switchs.

Date: 2015-01-09 01:23:20 UTC
Le premier reboot a mis en avant une différence de configuration entre les deux switchs. Nous reportons la maintenance afin de vérifier l'ensemble des configurations.

Date: 2015-01-09 01:07:39 UTC
Un reload est nécessaire afin de préparer le switch a faire une mise a jour a chaud. Aucun impact a prévoir puisque la charge sera assure par le second switch

Date: 2015-01-09 00:49:38 UTC
Nous allons debuter la mise a jour.
Posted Jan 08, 2015 - 14:39 UTC
This scheduled maintenance affected: Infrastructure || GRA (GRA1).