Como derrotar a tela roxa da morte da VMware?

Muitos administradores do VMware ESXi tiveram o problema Tela roxa da morte. O mais chato desse problema é que você desconfia de sua própria infraestrutura. Os pensamentos estão constantemente girando em minha cabeça que o mesmo problema pode se repetir em outro servidor.

O que é PSOD?

PSOD significa Purple Screen of Diagnostics , muitas vezes referida como Purple Screen of Death da mais famosa Blue Screen of Death encontrada no Microsoft Windows.

Esta é uma tela de diagnóstico exibida pelo VMware ESXi quando o kernel encontra um erro fatal no qual não pode se recuperar com segurança ou não pode continuar a ser executado.

Ele mostra o estado da memória no momento da falha, bem como informações adicionais que são importantes para solucionar a causa da falha: versão e build do ESXi, tipo de exceção, registro de despejo, backtrace, tempo de atividade do servidor, mensagens de erro e informações de despejo de kernel. (arquivo criado após o erro, contendo informações adicionais de diagnóstico).

Esta tela é exibida no console do servidor. Para vê-lo, você precisará estar no datacenter e conectar um monitor ou conectar-se remotamente usando gerenciamento de servidor fora de banda (iLO, iDRAC, IMM, etc., dependendo do seu fornecedor).  

Imagem 1
Imagem 1

Por que o PSOD aparece?

PSOD -   . , ESXi UNIX, UNIX. ESXi (vmkernel) , , , . : ESXi , , «» , , « » , !

PSOD:

1. , RAM CPU. «MCE» «NMI».

«MCE» — , . , , .

«NMI» — , , . NMI HW, , ESXi 5.0 , PSOD. . MCE, , NMI,   ,  .

2.

·         ESXi SW (. KB2105711)

·         (. KB2136430 )

·         : , , (. KB2034111,  KB2150280)

·         + (. KB2105522 )

·         (. KB2012125,  KB2127997)

3. ;  , (. KB2146526,  KB2148123)

PSOD?

,   , , .     . HA, . , «» , , .

, , , , , VSAN, PSOD vSAN.

?

1. .

, -   . (IMM, iLO, iDRAC, …), , , . .

Figura 2
2

2. VMware.

, VMware, . (RCA).

3. ESXi.

, . , RCA, . , , DRS, , PSOD .

4. coredump

coredump. Coredump, vmkernel-zdump, , , , , . PSOD, 1, , coredump.

:

.  

b.  .dump  

c.  .dump   vCenter — netdump

Coredump ,   PSOD , . ESXi SCP, (, Notepad ++). , , . VMware , vmkernel, :

Figura 3
3

5. .

.  , , - , .  , : 

Exception Type 0 #DE: Divide Error

Exception Type 1 #DB: Debug Exception

Exception Type 2 NMI: Non-Maskable Interrupt

Exception Type 3 #BP: Breakpoint Exception

Exception Type 4 #OF: Overflow (INTO instruction)

Exception Type 5 #BR: Bounds check (BOUND instruction)

Exception Type 6 #UD: Invalid Opcode

Exception Type 7 #NM: Coprocessor not available

Exception Type 8 #DF: Double Fault

Exception Type 10 #TS: Invalid TSS

Exception Type 11 #NP: Segment Not Present

Exception Type 12 #SS: Stack Segment Fault

Exception Type 13 #GP: General Protection Fault

Exception Type 14 #PF: Page Fault

Exception Type 16 #MF: Coprocessor error

Exception Type 17 #AC: Alignment Check

Exception Type 18 #MC: Machine Check Exception

Exception Type 19 #XF: SIMD Floating-Point Exception

Exception Type 20-31: Reserved

Exception Type 32-255: User-defined (clock scheduler)

, .  Intel 64 IA-32, 1:      Intel 64 IA-32, 3A.

VMware. PSOD:

LINT1/NMI (motherboard nonmaskable interrupt), undiagnosed

NMI (1014767)

Panic requested by one or more 3rd party NMI handlers

COS Error: Oops

«» (1006802)

Lost Heartbeat

« » (1009525)

ASSERT bora/vmkernel/main/pframe_int.h:527

ASSERT NOT_IMPLEMENTED (1019956)

NOT_IMPLEMENTED /build/mts/release/bora-84374/bora/vmkernel/main/util.c:83

ASSERT NOT_IMPLEMENTED (1019956)

Spin count exceeded (iplLock) — possible deadlock

« » (1020105)

PCPU 1 locked up. Failed to ack TLB invalidate

TLB, (1020214)

#GP Exception(13) in world 4130:helper13-0 @ 0x41803399e303

13 14 (1020181)

#PF Exception type 14 in world 136:helper0-0 @ 0x4a8e6e

Machine Check Exception: Unable to continueHardware (Machine) Error

(MCE) (1005184)

Hardware (Machine) Error

PCPU: 1 hardware errors seen since boot (1 corrected by hardware)

6.

, , , , - , , PSOD.  , , , .

, ,   (,  VMware Log Insight SolarWinds LEM ), , ,     .

:

/var/log/syslog.log

.

VMkernel

/var/log/vmkernel.log

, ESXi.  , PSOD, , .

ESXi

/var/log/hostd.log

, ESXi .

VMkernel

/var/log/vmkwarning.log

, .  , (Heap WorkHeap).

vCenter

/var/log/vpxa.log

, vCenter, , vCenter PSOD.

shell

/var/log/shell.log

, PSOD .




All Articles