Ciao,
ho un cluster esxi con 5 host (tutti alla ver 6 con le ultime patch installate, hw con tutti i firmware aggiornati e in matrice di comp.) che usano diversi datastore NFS che stanno su due coppie di netapp fas2240 (un totale di 4 teste). La rete è a 1gbit. Il tutto serve un sito internet. I netapp hanno una versione di s.o. un po' datata ma comunque in hcl.
Succede che tutte le mattine intorno alla stessa ora e per circa un'ora si osservano latenze enormi (ordine del secondo) su certi oggetti. Dopo parecchio studio si è visto che a rallentare sono alcuni host. VM che stanno sullo stesso datastore hanno prestazioni normali o pessime a seconda dell'host su cui girano. Ridistribuendo le VM il problema si sposta su host diversi.
Non è sicuro ma ci sono indizi a dire che il problema segue alcune VM (sono più di 100 e il problema si manifesta una volta al giorno in orari non presidiati, quindi è non è facile beccarle).
Nella fascia oraria incriminata non c'è un carico particolare su host e storage. L'unica cosa certa è che l'uso di banda internet è alto perché vengono scaricati grossi file da parte di clienti esterni. Però la banda complessiva verso internet è di "soli" 100 + 100 Mbit/s (sono due isp distinti).
Purtroppo per limiti hardware e "storici" la configurazione della rete non è ottimale: ho solo 4 nic per host e non ho una vlan separata per il traffico verso i datastore, l'unica cosa che ho potuto fare è, giocando con standby e active adapters, dedicare 1 nic all'nfs. 2 nic sono su un vSwitch dedicato a management+vmotion e 2 nic con un vSwitch sono per il traffico nfs, per la rete delle vm e per la rete pubblica.
Per questo motivo ho avuto il sospetto che si potesse saturare la nic dedicata all'nfs degli host. Mettendo le VM più critiche (quelle che quando rallentano provocano utenza interna inferocita) su altri host rispetto a quelle che 'consumano' più banda internet ho visto che l'host senza le "succhiabanda" non da mai problemi di prestazioni.
Oltre ad avere Veeam ONE per analizzare le prestazioni, sto usando il PRTG network monitor per rilevare in dettaglio il traffico nic per nic di tutti gli host. Come immaginavo, il traffico sulle nic dove gira nfs sta fra 100 e 200 Kbit/s; solo quando per es. faccio il deploy di una vm da template sale a 400. I grafici sono sempre "giustamente irregolari", cioè non si vedono le classiche righe diritte che compaiono quando qualcosa è saturo.
Ho disabilitato dedupliche e compressioni sugli storage, in modo da escludere che possano essere queste a rallentare le macchine. Inoltre sempre col PRTG controllo le stesse, in modo da evidenziare picchi di cpu e altre operazioni come scrub di dischi, onde escludere che siano la causa del problema. E non lo sono (capitano ma in orari differenti).
Da ultimo: questo cluster non è giovane ma gira da ormai più di 4 anni e ha avuto incrementi di carico e potenziamenti di hw (erano solo 3 host e netapp più vecchi), ma i guai sono iniziati nell'ultimo mese. Ho fatto l'aggiornamento a vSphere 6, però non penso sia la causa diretta ma solo "indiretta": modificando la distribuzione delle VM per il riavvio degli host ho fatto emergere la criticità che ora, ridistribuendo in modo opportuno, ho di nuovo "sommerso".
Che fareste al mio posto?