Muitos administradores do VMware ESXi tiveram o problema Tela roxa da morte. O mais chato desse problema é que você desconfia de sua própria infraestrutura. Os pensamentos estão constantemente girando em minha cabeça que o mesmo problema pode se repetir em outro servidor.
O que é PSOD?
PSOD significa Purple Screen of Diagnostics , muitas vezes referida como Purple Screen of Death da mais famosa Blue Screen of Death encontrada no Microsoft Windows.
Esta é uma tela de diagnóstico exibida pelo VMware ESXi quando o kernel encontra um erro fatal no qual não pode se recuperar com segurança ou não pode continuar a ser executado.
Ele mostra o estado da memória no momento da falha, bem como informações adicionais que são importantes para solucionar a causa da falha: versão e build do ESXi, tipo de exceção, registro de despejo, backtrace, tempo de atividade do servidor, mensagens de erro e informações de despejo de kernel. (arquivo criado após o erro, contendo informações adicionais de diagnóstico).
Esta tela é exibida no console do servidor. Para vê-lo, você precisará estar no datacenter e conectar um monitor ou conectar-se remotamente usando gerenciamento de servidor fora de banda (iLO, iDRAC, IMM, etc., dependendo do seu fornecedor).

Por que o PSOD aparece?
PSOD - . , ESXi UNIX, UNIX. ESXi (vmkernel) , , , . : ESXi , , «» , , « » , !
PSOD:
1. , RAM CPU. «MCE» «NMI».
«MCE» — , . , , .
«NMI» — , , . NMI HW, , ESXi 5.0 , PSOD. . MCE, , NMI, , .
2.
· ESXi SW (. KB2105711)
· (. KB2136430 )
· : , , (. KB2034111, KB2150280)
· + (. KB2105522 )
· (. KB2012125, KB2127997)
3. ; , (. KB2146526, KB2148123)
PSOD?
, , , . . HA, . , «» , , .
, , , , , VSAN, PSOD vSAN.
?
1. .
, - . (IMM, iLO, iDRAC, …), , , . .

2. VMware.
, VMware, . (RCA).
3. ESXi.
, . , RCA, . , , DRS, , PSOD .
4. coredump
- coredump. Coredump, vmkernel-zdump, , , , , . PSOD, 1, , coredump.
:
.
b. .dump
c. .dump vCenter — netdump
Coredump , PSOD , . ESXi SCP, (, Notepad ++). , , . VMware , vmkernel, :

5. .
. , , - , . , :
Exception Type 0 #DE: Divide Error
Exception Type 1 #DB: Debug Exception
Exception Type 2 NMI: Non-Maskable Interrupt
Exception Type 3 #BP: Breakpoint Exception
Exception Type 4 #OF: Overflow (INTO instruction)
Exception Type 5 #BR: Bounds check (BOUND instruction)
Exception Type 6 #UD: Invalid Opcode
Exception Type 7 #NM: Coprocessor not available
Exception Type 8 #DF: Double Fault
Exception Type 10 #TS: Invalid TSS
Exception Type 11 #NP: Segment Not Present
Exception Type 12 #SS: Stack Segment Fault
Exception Type 13 #GP: General Protection Fault
Exception Type 14 #PF: Page Fault
Exception Type 16 #MF: Coprocessor error
Exception Type 17 #AC: Alignment Check
Exception Type 18 #MC: Machine Check Exception
Exception Type 19 #XF: SIMD Floating-Point Exception
Exception Type 20-31: Reserved
Exception Type 32-255: User-defined (clock scheduler)
, . Intel 64 IA-32, 1: Intel 64 IA-32, 3A.
VMware. PSOD:
|
|
LINT1/NMI (motherboard nonmaskable interrupt), undiagnosed | NMI (1014767) |
Panic requested by one or more 3rd party NMI handlers | |
COS Error: Oops | «» (1006802) |
Lost Heartbeat | « » (1009525) |
ASSERT bora/vmkernel/main/pframe_int.h:527 | ASSERT NOT_IMPLEMENTED (1019956) |
NOT_IMPLEMENTED /build/mts/release/bora-84374/bora/vmkernel/main/util.c:83 | ASSERT NOT_IMPLEMENTED (1019956) |
Spin count exceeded (iplLock) — possible deadlock | « » (1020105) |
PCPU 1 locked up. Failed to ack TLB invalidate | TLB, (1020214) |
#GP Exception(13) in world 4130:helper13-0 @ 0x41803399e303 | 13 14 (1020181) |
#PF Exception type 14 in world 136:helper0-0 @ 0x4a8e6e | |
Machine Check Exception: Unable to continueHardware (Machine) Error | (MCE) (1005184) |
Hardware (Machine) Error | |
PCPU: 1 hardware errors seen since boot (1 corrected by hardware) |
6.
, , , , - , , PSOD. , , , .
, , (, VMware Log Insight SolarWinds LEM ), , , .
:
|
| |
| /var/log/syslog.log | . |
VMkernel | /var/log/vmkernel.log | , ESXi. , PSOD, , . |
ESXi | /var/log/hostd.log | , ESXi . |
VMkernel | /var/log/vmkwarning.log | , . , (Heap WorkHeap). |
vCenter | /var/log/vpxa.log | , vCenter, , vCenter PSOD. |
shell | /var/log/shell.log | , PSOD . |