esxi nagios numero di velocità

Sto cercando di aggiungere i miei server esxi (ho 3 di loro) al mio monitoraggio nagios. Sto utilizzando l'SDK perl e script come documentato in vari siti su Internet, qui è l'ultimo script: http://git.op5.org/git/?p=nagios/op5plugins.git;a=blob_plain;f = check_esx3.pl; hb = HEAD

Ho aggiornato le mie due scatole esxi4 a 4.1u1 (4.1.0, 348481)

Il problema che sto sperimentando è che i controlli sono molto lenti.

Ho tracciato il command perl utilizzando DProf

/usr/bin/perl -d:DProf /usr/lib/nagios/plugins/check_esxi -H HOSTNAME -u nagios -p PASSWORD -l cpu -s usage -w 85 -c 95 

e ho la seguente output (via dproff)

  Total Elapsed Time = 6.634312 Seconds User+System Time = 5.154312 Seconds Exclusive Times %Time ExclSec CumulS #Calls sec/call Csec/c Name 44.1 2.276 4.339 2 1.1380 2.1695 Vim::login 12.9 0.667 1.638 4254 0.0002 0.0004 Class::MethodMaker::Engine::create_methods 8.91 0.459 0.588 4254 0.0001 0.0001 Class::MethodMaker::scalar::scal0000 5.18 0.267 0.304 4254 0.0001 0.0001 Class::MethodMaker::Engine::install_methods 3.20 0.165 0.165 26005 0.0000 0.0000 XML::LibXML::Node::nodeName 2.50 0.129 0.129 4254 0.0000 0.0000 Class::MethodMaker::Engine::check_opts 2.41 0.124 0.594 925 0.0001 0.0006 ComplexType::deserialize 1.92 0.099 0.091 1561 0.0001 0.0001 Class::MethodMaker::Engine::_find_target_class 1.40 0.072 0.072 3326 0.0000 0.0000 XML::LibXML::Node::textContent 1.36 0.070 0.336 5816 0.0000 0.0001 XML::LibXML::Element::getChildrenByTagName 1.14 0.059 0.068 4254 0.0000 0.0000 Class::MethodMaker::OptExt::encode 1.07 0.055 0.055 5816 0.0000 0.0000 XML::LibXML::Node::_childNodes 1.05 0.054 1.820 1561 0.0000 0.0012 Class::MethodMaker::Engine::import 0.97 0.050 0.050 1 0.0500 0.0500 utf8::AUTOLOAD 0.97 0.050 0.205 25 0.0020 0.0082 main::BEGIN 

Mentre sto eseguendo 4.1, ho abilitato SSH e collegato alla console. Questo è ciò che vedo in / var / log / messages (questo è esxi4 quindi non c'è nessun log di vkernel)

  [2011-09-05 22:53:36.543 51E40B90 verbose 'Proxysvc Req06598'] New proxy client SSL(TCP(local=192.168.99.101:57617, peer=192.168.99.22:443)) [2011-09-05 22:53:43.091 52081B90 verbose 'Proxysvc Req06599'] New proxy client SSL(TCP(local=192.168.99.101:57652, peer=192.168.99.22:443)) [2011-09-05 22:53:43.136 51E81B90 info 'Vimsvc'] [Auth]: User nagios [2011-09-05 22:53:43.137 51E81B90 info 'ha-eventmgr'] Event 4814 : User nagios@192.168.99.101 logged in [2011-09-05 22:53:44.429 52081B90 verbose 'App'] CloseSession called for session id=5260ca10-fdc9-3a26-4d0c-45be7792c716 [2011-09-05 22:53:44.430 52081B90 info 'ha-eventmgr'] Event 4815 : User nagios logged out 

Notate le due registrazioni, separate da circa 7 secondi – con la seconda che completa il controllo in fretta.

In disgrazia, vedo anche due di questi regolarmente nel registro, ma credo che non sia correlato

  [2011-09-05 22:53:40.031 51AD1B90 verbose 'Statssvc'] HostCtl exception Unable to complete Sysinfo operation. Please see the VMkernel log file for more details. 

Voglio anche notare che l'accesso al server tramite vsphere è abbastanza lento, anche circa 3-4 secondi prima che inizia a caricare. Questo potrebbe non essere correlato. Il server esxi non è sotto carico enorme, anche se ha iscsi luns montati e forse circa 6-7 VM attivi. Ho controllato (e aumentato) l'allocazione delle risorse per l'host e anche controllato esxtop (senza risultati) durante l'esecuzione del command di controllo.

Questo ritardo è un problema, perché i processi perl da nagios eseguono al 100% di CPU mentre stanno cercando di connettersi, e sta succedendo su tutti e tre i miei server esxi. Così come nagios rilascia sempre più controlli, la CPU del server di monitoraggio e le medie di carico passano attraverso il tetto poiché tutti i processi sono in attesa di risposte. Ciò serve solo ad esasperare il problema di ritardo e provocare l'allontanamento di tutti i controlli.

Un amico, anche in esecuzione nagios, lo stesso script di monitoraggio e lo stesso aggiornamento di esxi può eseguire lo stesso controllo e si completa entro less di un secondo, mentre per me occorre fino a 10 secondi (come si può vedere nell'output dproff)

Vi prego di informarmi se ci sono ulteriori informazioni che posso fornire per aiutare a diagnosticare questo problema Gli host sono stati riavviati (con l'aggiornamento 4.1) ieri sera

Grazie in anticipo,

Gareth

–edit1: ha aggiunto i tempi totali alla proff output e ha fatto un command perl check di un block quote

–edit2:

Ho provato triggersmente questa diagnosi da quando ho postato. Ho scoperto che i miei amici nagios server è una macchina x64, quindi mi sono alzato un nuovo ubuntu 10.4 x64 VM (su un'altra mente host) Dopo aver installato tutte le cose necessarie per i controlli esxi (sono stati richiesti molti moduli cpan) può tempo i controlli di quella nuova installazione e un controllo CPU completato in circa 2 secondi.

Ciò indica che il problema è con il server nagios o perl, non con il server esxi VMWare

L'ho fatta sicura

  1. sono installati strumenti vmware
  2. tutti i moduli cpan che wherevo installare sul server di test sono aggiornati sul server di produzione
  3. il server di produzione è aptitude update & & aptitude upgrade 'd
  4. il DNS indietro (come sotto) sta funzionando
  5. i DN in avanti (come sotto) funzionano
  6. testato con IP diretto, no hostame
  7. Ha arrestato il server nagios in modo che LA scenda a 0,01 prima di fare i miei test
  8. Modificato il driver vmware nic da flessibile (host è esxi3.5) ad un vmxnet migliorato
  9. Aumenta il numero di CPU virtuale da 1 a 2

Non posso migrare nagios alla nuova macchina x64, non funziona sul nostro server di gestione vm (che contiene questa casella di monitoraggio più alcuni jumphosts)

La scatola da 32 bit (che ho originariamente iniziato e profilato sopra) sta ancora prendendo 8-10 secondi di CPU al 100% per completare un controllo della CPU

Ho capito che il disco è un disco virtuale montato su un iSCSI lun per questo server e che rallenta il disco IO in giù, ma non mi aspetterei che un server remoto fosse un'operazione di IO ad alto livello.

  • Monitoraggio VMware ESXi (gratuito) vs vSphere
  • Nagios avvisa "ESX3 Critical - Errore: Imansible completare il login a causa di un nome utente o una password errati" dopo la modifica della password di root tramite vSphere
  • DELL OpenManage 7.3 su ESXi5.1
  • Controlli hardware per i server Dell R820 tramite Nagios utilizzando SNMP
  • Monitorare gli host ESXi con Nagios
  • One Solution collect form web for “esxi nagios numero di velocità”

    Come è il tuo DNS? C'è una voce DNS inversa per il server di monitoraggio nel file host del server VMWare? Il DNS inverso risolve tramite il server DNS del tuo sito? Questa può essere la causa del ritardo. Se non è ansible modificare un server DNS, provare ad aggiungere una voce /etc/hosts per il server Nagios sui server VMWare interessati e vedere se migliora il tempo di accesso / esecuzione.

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.