OVHCloud Network Status

Current status
Legend
  • Operational
  • Degraded performance
  • Partial Outage
  • Major Outage
  • Under maintenance
fra-1-6k
Incident Report for Network & Infrastructure
Resolved
Nous rencontrons actuellement les mêmes problème que sur le task #3428.

Update(s):

Date: 2009-10-04 14:35:41 UTC
On a changé les IP et ça marche.

Date: 2009-10-04 13:33:19 UTC
Même sans BGP, sans OSPF, sans trafic sur lien, le problème se manifeste. En fait dès que le port monte, l'utilisation CPU augmente instantanément. Idem en changeant l'optique.

Date: 2009-10-04 13:17:16 UTC
Dès que le lien vers Zurich remonte même sur une carte neuve, le \"IP Input\" commence à utiliser le CPU de manière anormale:

123 127580 289564 440 18.71% 15.58% 8.13% 0 IP Input

Date: 2009-10-04 13:10:09 UTC
Il semble que le problème soit lié au lien vers Zurich. Dès que nous rétablissons ce lien, les symptomes réapparaissent. Nous avons pour l'instant réactivé toutes les sessions BGP et tous les liens sauf Zurich et le CPU utilisé par le process \"IP Input\" reste stable:

123 70848 172214 411 2.63% 3.22% 2.52% 0 IP Input

Nous allons installer une 6704 de spare sur le chassis et tenter de monter le lien vers Zurich dessus.


Date: 2009-10-04 12:49:16 UTC
Nous remontons les ports et les sessions BGP progressivement.

Date: 2009-10-04 11:41:32 UTC
Le technicien est actuellement sur le site avec le matériel de spare. Nous allons remplacer la sup720. Le routeur sera offline pendant une dizaine de minutes.

Date: 2009-10-04 00:15:17 UTC
Nous travaillons toujours sur le problème avec les ingénieurs du TAC cisco. L'utilisation du CPU sur la sup est anormalement élevée en raison d'une utilisation CPU anormale du process \"IP Input\". Le routeur effectue probablement en software une partie de traitements habituellement gérés en hardware.

Cette après-midi, nous avons tenté de redémarrer complètement le chassis sans succés. Nous avons coupé toutes les sessions BGP vers le routeur et depuis le routeur vers DEC-IX et TPSA. Ramener le trafic a un niveau plus bas nous a permis de récupérer progressivement la main sur le routeur et de pouvoir lancer les commandes de diag. L'utilisation CPU étant en effet maintenant directement lié au traffic. Nous sommes actuellement a un peu plus de 70% d'utilisation CPU.

Parallèlement au travail avec Cisco, un technicien partira sur Francfort dans quelques heures avec du matériel de spare afin d'éventuellement remplacer la sup ou l'une des cartes 10G. Arrivée prévue sur place aux environ de 12:00.

Une partie du traffic DEC-IX s'écoulant habituellement vers fra-1 s'écoule actuellement via notre second routeur, vers les autres points de peerings ou vers les transits. Le trafic TSPA s'écoule via les transits.
Posted Oct 03, 2009 - 13:40 UTC