diff --git a/guida.html b/guida.html index c219eb5..6ea0c11 100644 --- a/guida.html +++ b/guida.html @@ -328,7 +328,7 @@
Manuale passo passo per imparare a gestire array RAID con il terminale simulato
- + @@ -346,8 +346,9 @@scenario listScenariraid0_fail, raid1_onefail, raid5_1fail, raid5_2fail, raid6_2fail, raid10_pairfail, rebuild_interrupted, wrong_size_spare, crc_errors, overheat.raid0_fail — RAID0: un guasto → FAILED, conclude restore da backupraid1_onefail — RAID1: sostituzione disco + rebuildraid5_1fail — RAID5: recovery con 1 disco guastoraid5_2fail — RAID5: 2 guasti → FAILED, conclude restore da backupraid6_2fail — RAID6: recovery con 2 dischi guasti (uno alla volta)raid10_pairfail — RAID10: mirror pair perso → FAILEDrebuild_interrupted — rebuild interrotto da powerfail, poi riavviatowrong_size_spare — spare troppo piccolo (errore) poi correttocrc_errors — disco in stato CRC: diagnosi + replace cable o concludeoverheat — disco in OVERHEAT: diagnosi + cool down o concludeconclude <testo>Scenariconclude restore da backupconclude restore da backup — array FAILED, dati persiconclude sostituire cavo SATA — disco in stato CRC, causa probabile cavoconclude migliorare raffreddamento — disco in OVERHEATconclude monitorare e pianificare sostituzione — disco SLOWreplace cable /dev/sdXSimulazionedmesg | tail e smartctl, se Reallocated_Sector_Ct = 0 (problema di cavo, non di disco). Nello scenario crc_errors.replace cable /dev/sddcrc_errors: +8 punti per aver eseguito la sostituzione corretta del cavo.cool down /dev/sdXSimulazionesmartctl e dmesg | tail. Nello scenario overheat.cool down /dev/sdcoverheat: +8 punti per aver eseguito l'intervento di raffreddamento corretto.mdadm --fail + --remove + --add + --rebuild.smartctl e dmesg | tail. Poi: cool down /dev/sdX per simulare l'intervento di raffreddamento, oppure conclude migliorare raffreddamento. Pianificare sostituzione preventiva.dmesg | tail e smartctl. Se Reallocated = 0: usare replace cable /dev/sdX per simulare la sostituzione del cavo, oppure conclude sostituire cavo SATA.Non tutti i problemi di un disco richiedono la sostituzione immediata. Il simulatore distingue tre stati di allerta che segnalano un disco in difficoltà ma ancora funzionante. Capire come gestirli — e come chiuderli correttamente — è fondamentale per l'esame.
+ +| Problema | Sintomo nel simulatore | Prima azione | Decisione logica | Chiusura corretta |
|---|---|---|---|---|
| CRC errors | +Stato .crc, CRC counter > 0 |
+ dmesg | tailsmartctl -a /dev/sdX |
+ Realloc = 0 → cavo Realloc > 50 → disco |
+ replace cable /dev/sdXoppure conclude sostituire cavo SATA |
+
| Overheat | +Stato .overheat, temp > 55°C |
+ smartctl -a /dev/sdXdmesg | tail |
+ Non è guasto ora, ma è imminente → non aspettare | +cool down /dev/sdXoppure conclude migliorare raffreddamento |
+
| Slow disk | +Stato .slow, IOPS ridotti |
+ smartctl -a /dev/sdXverifica Current_Pending_Sector |
+ Pending < 20 → monitora Pending > 20 → sostituisci |
+ conclude monitorare e pianificare sostituzione |
+
| FAILED (array) | +Array in stato FAILED | +cat /proc/mdstatmdadm --detail /dev/md0 |
+ Guasti oltre la tolleranza → nessun rebuild possibile | +conclude restore da backup |
+
Gli errori CRC (Cyclic Redundancy Check) segnalano che i dati hanno subito corruzione durante il trasferimento sul cavo SATA. Non è detto che il disco sia guasto: il problema è spesso nel cavo o nel connettore.
+ +raidlab(OK)$ dmesg | tail +[04231.001] WARN: /dev/sdd: UDMA CRC errors detected +[04231.100] ata4.00: exception Emask 0x0 SAct — link reset+ Il kernel segnala errori di trasmissione su /dev/sdd. Non dice ancora se è il cavo o il disco. +
raidlab(OK)$ smartctl -a /dev/sdd +SMART overall-health: PASSED (but CRC errors) + + 5 Reallocated_Sector_Ct 0 ← nessun settore danneggiato +199 UDMA_CRC_Error_Count 24 ← errori di trasmissione +194 Temperature_Celsius 35+ Reallocated = 0: il disco è integro fisicamente. Il problema è nel percorso del segnale (cavo, connettore). +
raidlab(OK)$ replace cable /dev/sdd +[sostituzione cavo SATA su /dev/sdd] + UDMA_CRC_Error_Count: 24 → 0 (azzerato dal reset) + Stato disco: CRC → OK +→ Monitorare nelle prossime ore con smartctl+ Oppure, se si vuole solo registrare la decisione:
conclude sostituire cavo SATA.
+ mdadm --fail → --remove → --add → --rebuild.Un disco surriscaldato (sopra i 55–60°C) non è ancora guasto, ma è un pre-failure: il guasto è imminente. Non bisogna aspettare.
+ +| Temperatura | Stato | Azione |
|---|---|---|
| < 45°C | Ottimale | Nessuna |
| 45–55°C | Accettabile | Monitorare |
| 55–60°C | Attenzione | Migliorare ventilazione |
| > 60°C | Critico | Intervenire subito, pianificare sostituzione |
raidlab(OK)$ smartctl -a /dev/sdc +SMART overall-health: PASSED (but temperature high) + +194 Temperature_Celsius 61 ← critico: >60°C + 5 Reallocated_Sector_Ct 0 +199 UDMA_CRC_Error_Count 0+
raidlab(OK)$ cool down /dev/sdc +[intervento di raffreddamento su /dev/sdc] + Temperatura: 61°C → 38°C (zona ottimale) + Throttling termico: rimosso + Stato disco: OVERHEAT → OK +→ Pianificare sostituzione preventiva+ Oppure:
conclude migliorare raffreddamento.
+ mdadm --fail /dev/md0 /dev/sdc → --remove → --add /dev/sdf → --rebuild. Così si fa il rebuild in condizioni controllate invece di subirlo d'emergenza.Un disco lento degrada le prestazioni dell'intero array (RAID è veloce quanto il suo disco più lento). Non è ancora guasto, ma può diventarlo.
+smartctl -a /dev/sdX il valore Current_Pending_Sector.conclude monitorare e pianificare sostituzione.Un buon amministratore di sistema non si ferma alla diagnosi. Ogni sessione deve avere un risultato verificabile e documentato. Nel simulatore, il punteggio non è completo senza una chiusura esplicita:
+RAID 1 fa mirroring su tutti i dischi: con 4 dischi da 1 TB la capacità è 1 TB e la tolleranza è 3 guasti. RAID 10 divide i dischi in coppie mirror e le mette in stripe: con 4 dischi da 1 TB la capacità è 2 TB ma si tollera 1 solo guasto per coppia. Non sono la stessa cosa. In RAID 10, se si guastano entrambi i dischi della stessa coppia, l'array è FAILED anche se tutti gli altri dischi funzionano perfettamente.
@@ -1257,9 +1474,15 @@ SMART overall-health: FAILED!Se si aggiunge un disco con dimensione inferiore a quella dei dischi dell'array, il rebuild fallirà con l'errore "spare too small". Prima di aggiungere un disco con --add, verificare sempre la dimensione con fdisk -l o con il parametro --size nel comando --add.
Il comando replace cable /dev/sdX funziona solo su dischi in stato CRC. Se il disco è in stato FAILED, OVERHEAT o OK, il comando restituisce un errore. Analogamente, cool down /dev/sdX funziona solo su dischi in stato OVERHEAT. Usare questi comandi sul disco sbagliato non produce effetti e il terminale avvisa con un messaggio esplicito. Controllare sempre lo stato con mdadm --detail /dev/md0 prima di applicare questi interventi.
Gli scenari crc_errors e overheat richiedono due checkpoint per essere completati: la diagnosi (dmesg + smartctl) e la chiusura (replace cable / cool down oppure conclude). Se si esegue solo la diagnosi e ci si ferma, il punteggio rimane parziale e lo scenario non viene marcato come risolto. Ogni prova deve avere una fine esplicita e verificabile.
Il simulatore RAID è uno strumento completo per imparare a gestire array RAID in modo pratico e sicuro. Attraverso l'uso del terminale simulato si acquisisce familiarità con i comandi reali di Linux e si sviluppa un metodo di lavoro ordinato e metodico.
@@ -1278,7 +1501,7 @@ SMART overall-health: FAILED!— Fine della guida — Simulatore RAID v2.3 · Informatica di Sistema
+— Fine della guida — Simulatore RAID v2.8 · Informatica di Sistema