Come faccio a sapere cosa fa il server quando si blocca?

Ho un server in esecuzione su Centos 5.2 e c'è un modo migliore per sapere perché il server si è schiantato o quello che sta facendo in quel momento?

Mi dispiace che sono un novizio e qualsiasi aiuto è apprezzato ~ Grazie

  • Come clonare immagini e dati per VM su Azure?
  • CentOS o Ubuntu for Xen test machine?
  • Perché brk () in output strace avrebbe impiegato diversi secondi?
  • Unix / Linux semplice log parser (da, fino a)
  • Linux: impedisce l'inondazione TCP in output
  • Eliminare una catena iptables con tutte le regole
  • Debian Squeeze i driver Hyper-V
  • wget - Salvo solo se il codice restituito è 200, elimina altrimenti
  • 6 Solutions collect form web for “Come faccio a sapere cosa fa il server quando si blocca?”

    Se si è verificato un panico del kernel, è ansible impostare una console di kernel remota per catturare tutti i dati che potrebbero essere persi nella console locale (specialmente se il crash è da un interrupt non-mascherabile che tende a riavviare il sistema).

    Sul sistema che si prevede potrebbe cadere:

    /sbin/modprobe netconsole netconsole=6666@10.1.1.16/eth0,6666@10.1.1.17/00:19:BB:31:B8:0E 
    • 6666 è un numero di port arbitrario
    • 10.1.1.16 è l'indirizzo IP dell'interface locale da submit via
    • eth0 è il nome dell'interface locale da submit via
    • 10.1.1.17 è l'indirizzo IP dell'interface remota da submit
    • 00: 19: BB: 31: B8: 0E è l'indirizzo MAC dell'interface remota da submit

    Sul sistema remoto, eseguire (questo richiede che tu abbia installato netcat):

     nc -l -p 6666 -u | tee capture.file 

    Ciò cattura tutte le uscite del kernel sul sistema remoto. Questo funziona ad un livello molto inferiore (lo stesso punto del kernel che scrive a / dev / klog), in modo da poter vedere l'ultimo bit di informazioni che il kernel esegue quando si panizza anche se syslog et. hanno smesso di funzionare.

    prova a iniziare la contabilità dei processi

    /etc/init.d/psacct start o /sbin/chkconfig psacct on (per autostart all'avvio)

    quindi usa lastcomm (1) per vedere cosa era in esecuzione quando.

    o provare ad installare in cima , registra la memory della macchina e lo stato di process each 10 minuti in modo da poter avere un'idea di cosa sta succedendo.

    atop -r /var/log/atop/atop_YYYYMMDD e quindi utilizzare i tasti t e T per andare avanti e indietro

    nel 99% dei casi è chiaro da quei due esattamente quello che stava succedendo

    Hai controllato / var / log / dmesg, / var / log / messaggi e / var / log / syslog?

    Che tipo di crash? Le raccomandazioni di tutti sui registri dmesg / messages sono buone. Se sta appena "chiudendo" prima che abbia la possibilità di registrare qualsiasi cosa, indovino che potrebbe essere il surriscaldamento o c'è un problema di alimentazione.

    Se questo è il caso, potrebbe essere utile passare ai registri hardware se esistono. Se si utilizzano server Dell, il supporto Dell può fornire strumenti Linux per accedere a tali registri. Altri fornitori potrebbero fornire funzionalità simili.

    Potresti anche controllare la memory con memtest86 .

    La raccolta di un nucleo sulla networking è probabilmente overkill, potete scaricarla localmente. Questa è una guida per la creazione e la prova di kdump. Se si segue le istruzioni e ancora non è ansible get un dump creato localmente allora si dovrebbe passare alla cattura in networking.

    Naturalmente, una volta che hai un dump di base, dovrai eseguire alcune analisi utilizzando l'utilità di crash . Dovresti installare il giusto kernel-debuginfo rpm per il tuo kernel in esecuzione e quindi invocare l'arresto anomalo: dovresti avere la chiave generale dal whitepaper. Se riesci ad aprire la prima cosa che dovresti guardare è il registro – scorrere verso il basso e dovresti avere qualche indizio su cosa sta succedendo al momento dell'incidente.

    Potresti configurare la macchina per fare un dump di nucleo del kernel sulla networking, ma avresti ancora bisogno di qualcuno qualificato per esaminarlo.

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.