Collegamenti in rame 10Gb instabili, tabs Broadcom e Intel agli switch Cisco 4900M

Abbiamo acquistato alcuni server Dell PowerEdge R730 con tabs PCI Express QLogic / Broadcom BCM57810 e collegarle a switch Cisco 4900M – i collegamenti 10Gb non funzionano in modo affidabile. A volte non si connettono, a volte si collegano dopo qualche minuto, e quando si collegano, cadono più volte al giorno. Le disconnessioni possono durare 4 minuti o 2 ore.

Gli switch Cisco dispongono di collegamenti in rame da 10Gb a Dell PowerVault SAN, stabili e funzionanti da molti mesi.

  • Azionamento nastro inutilizzabile il 14.04 ESXi VM
  • Quale sorgente NTP dovrei utilizzare nelle macchine virtuali ESXi?
  • Mirroring ottico
  • Versione consigliata di vmtools per Ubuntu?
  • VMWare ha consumato la memory
  • Perché dovrei avere bisogno di un tweak per forzare VMware ESXi 5 per sincronizzare il tempo con il server NTP di Windows
  • Vedo le disconnette nei registri di VMware come messaggi come:

    bnx2x 0000:82:00.1: vmnic5: NIC Link is Down 

    e

      network connectivity on virtual switch "vSwitch2". Physical NIC vmnic5 is down. 

    Non riesco a vedere codici di errore utili o messaggi precedenti, solo i messaggi causati dal link scendono. Su Windows si presenta come una scheda scollegata, e sull'interruttore si presenta come port switch disconnesso.

    Quando i collegamenti si collegano, funzionano – jumbo frame ping ping, stabiliscono le sessioni iSCSI, i datastores vengono visualizzati con tutti i routes trovati. Ma le connessioni sono intermittenti.

    Abbiamo verificato:

    • I cavi:
      • originariamente Cat5e singolo cavo, ora Cat6 cablaggio strutturato. La lunghezza totale del cavo è <7m.
      • Collegato con un nuovo cavo, ospita l'interruttore senza patch / giunti e nessun altro cavo vicino.
    • I driver / sistema operativo:
      • Inizialmente la build di VMware ESXi 5.5 U2 ("ESXi 5.5.0, 2068190") con la versione del driver bnx2x 2.710.39.v55.2
      • Quindi il driver aggiornato da vmware.com, bnx2x versione 2.710.70.v50.7
      • Poi ESXi 6.0, Dell build ("ESXi 6.0.0 2494585") che ha la versione bnx2x 2.712 …
      • Poi Windows Server 2012 R2 con il driver più recente dal sito di Dell.
    • Il firmware della scheda di networking QLogic / Broadcom; è l'ultimo di Dell, FFv7.12.17.
    • La configuration della port switch, è semplicemente mtu 9000 e l' switchport access vlan NNN
    • Le porte di commutazione
      • Questi sono moduli RJ45 a 8 porte 10Gb (WS-X4908-10G-RJ45), uno per interruttore. Le SAN occupano le prime quattro porte di ciascun module, i nuovi server occupano le altre quattro porte di ciascun module. Ciò sembra interessare tutte le porte che utilizziamo per i nuovi server. Quindi non è una port fallita o un module fallito.
      • Non ho provato a interrompere le connessioni SAN per testare quelle porte, senza alcuna ragione specifica per pensare che le porte 1-4 siano più affidabili di 5-8 che sarebbe un'ultima soluzione.
    • I contatori dell'interface switch, senza errori oltre a disconnettere.
    • Distriggerszione di diverse funzionalità di disconnessione nel driver QLogic / Broadcom di Windows e triggerszione di EnergyEfficientEthernet, forzando le tabs a 10Gb anziché autodetekt.
    • Collegando gli stessi host agli stessi switch in porte 1Gb, che sembra funzionare bene, si collegano ripetutamente rapidamente.
    • Incrociando due host, si collegano rapidamente a 10Gb e mantengono una connessione stabile per giorni.
    • Abbiamo comprato una scheda Intel X540-t2 e lo abbiamo provato. Si comport lo stesso.
    • Da allora abbiamo acquistato i cavi Patch Cat 6a e abbiamo provato quelli, senza modifiche.

    Abbiamo sollevato una chiamata con il supporto di Dell, non abbiamo trovato niente di sbagliato e suggeriamo che gli interruttori siano in errore, ma quando i switch eseguono connessioni in rame da 10Gb a Dell PowerVault Storage e per quanto posso dirlo dai nostri log di monitoraggio degli switch e dalla SAN i registri di events, i collegamenti non cadono, non sono disposto a pensare che gli switch Cisco siano il problema.

    Essi sono in esecuzione IOS 15.1 (1) SG2 che non è l'ultima, ma gli interruttori sono vivi e stabili, non voglio cambiare casualmente il firmware "solo nel caso".

    Ciò avviene su più server, più tabs di networking, più marche di scheda di networking, più versioni del driver, più switch. Non può essere un singolo pezzo di hardware difettoso. Tutto in un rack con aria condizionata e potenza.

    Questa è la prima volta che abbiamo provato l'host VMware per passare le connessioni a 10Gb, quindi non abbiamo altre configurazioni che possiamo confrontare o hardware con cui possiamo connettersi.

    Che altro possiamo controllare?

    Modifica : stavamo cercando di aggiornare il firmware dell'interruttore, ma ho appena trovato un collegamento correlato – questo sembra essere un problema noto tra il module Cisco WS-X4908-10G-RJ45 e le tabs Broadcom BCM57810, dipendenti dalla versione IOS – https://supportforums.cisco.com/discussion/11755141/4900m-ws-x4908-10g-rj45-port-startup-delay che ha molte discussioni pertinenti e port a:

    https://tools.cisco.com/bugsearch/bug/CSCug68370

    Problema di integerperabilità WS-X4908-10G-RJ45 e Broadcom 57810S 10Gb BASE-T

    CSCug68370

    Descrizione

    Sintomo: porte BaseT 10Gbps (su WS-X4908-10G-RJ45) collegate a server Dell 820 con Broadcom 57810S DP 10Gb BASE-T. In caso di ricarica dell'interruttore o rimozione / reinstallazione delle porte dei cavi si verifica dopo un lungo periodo (fino ad un'ora) o non si verifica affatto. Condizioni: 1) Modulo WS-X4908-10G-RJ45 2) Versioni 15.0 (2) SG tramite 15.0 (2) SG7, 15.1 (2) SG tramite 15.1 (2) SG3 Soluzione alternativa: riduzione a 12.2 (54) SG

    Questo non è esattamente lo stesso model di server, e non menziona le tabs Intel, ma il problema è un bel match-on match.

  • Qual è il command per abilitare i ricetrasmettitori SFP + di terze parti sull'interruttore Arista?
  • come sapere se NIC è abilitata?
  • Il process ksoftirqd sovraccarica la CPU con width di banda e più connessioni di networking
  • 10 interfacce GigE limita la velocità di connessione singola a 1 Gb su un ProCurve 4208vl
  • Raccomandazioni: configurare uno stack NAS 10GbE per la memorizzazione della virtualizzazione
  • Rete 10GE: è ancora costoso? Qualsiasi opzione?
  • 2 Solutions collect form web for “Collegamenti in rame 10Gb instabili, tabs Broadcom e Intel agli switch Cisco 4900M”

    Aggiorna i tuoi host ESXi. Questa è l'unica cosa che hai davvero perso nelle fasi di risoluzione dei problemi.

    L'installazione è di quasi un anno!

    A partire da questa scrittura, la versione corrente di ESXi 5.5 è 2718055 . Il numero di build di ESXi 6.0 attuale è 2809209 .

    Dell, HP, non import … dovresti ancora aggiornare le installazioni ESXi. Molte persone lo trascurano , ed è la seconda causa più spesso di inattività involontaria negli ambienti che vedo.

    Beh, sembra che si tratti di un bug di Cisco https://tools.cisco.com/bugsearch/bug/CSCug68370 e che l'aggiornamento a una delle versioni "conosciute" di IOS (15.1 (2) SG4) sembra averla risolta.

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.