NOTE: CentOS Enterprise Linux is built from the Red Hat Enterprise Linux source code. Other than logo and name changes CentOS Enterprise Linux is compatible with the equivalent Red Hat version. This document applies equally to both Red Hat and CentOS Enterprise Linux.
Linuxtopia - CentOS Enterprise Introduzione al System Administration - Pianificazione di un system disaster
Red Hat Enterprise Linux 4: Introduzione al System Administration
La pianificazione di un system disaster rappresenta una problematica che viene facilmente dimenticata dagli amministratori di sistema — non � piacevole, ma purtroppo sembra che ci sia sempre qualcos'altro a cui pensare. Tuttavia, non pianificare un disaster rappresenta l'errore pi� grande che un amministratore possa fare.
Anche se spesso si � portati a pensare ai diversi disastri naturali (come incendi, inondazioni o temporali), possono rientrare in questa categoria i problemi di ogni giorno che influiscono nella nostra vita quotidiana. Per questo motivo la definizione di disaster per un amministratore, rappresenta un evento non pianificato che influenza la normale funzione dell'organizzazione.
Anche se risultasse impossibile elencare tutti i tipi di disastri che si possono verificare, questa sezione esamina i fattori principali che fanno parte di ogni disaster, in modo da poter esaminare non le probabilit�, ma le reali condizioni che si possa verificare tale evento.
8.1. Tipi di disaster
In generale, vi sono quattro fattori che possono innescare un disaster. Questi fattori sono:
Problemi hardware
Problemi software
Problemi riguardanti l'ambiente
Errori umani
8.1.1. Problemi hardware
I problemi hardware sono pi� facili da capire — se si verifica tale errore, non � pi� possibile lavorare. Quello che risulta pi� difficile capire � la natura dei problemi e come subirne il minor impatto possibile. Ecco alcuni approcci:
8.1.1.1. Avere un hardware di riserva
L'esposizione ai problemi riguardanti l'hardware pu� essere ridotta conservando unit� hardware di riserva. Naturalmente questo approccio presuppone due cose:
Avere qualcuno in grado di diagnosticare il problema, identificare l'hardware incriminato e sostituirlo.
Disponibilit� di una unit� hardware per la sostituzione.
Queste problematiche vengono affrontate in dettaglio nelle seguenti sezioni.
8.1.1.1.1. Essere competenti
A seconda della vostra esperienza e dell'hardware incriminato, avere la necessaria competenza non rappresenterebbe una problematica. Tuttavia se non avete mai lavorato in passato con unit� hardware, vi consigliamo di consultare qualche collega per seguire un corso introduttivo su come riparare i PC. Poich� tale corso potrebbe risultare non sufficiente per permettervi di affrontare i diversi problemi con un server di livello enterprise, esso rappresenta il modo migliore per ottenere quelle conoscenze di basi necessarie (gestione corretta dei tool e dei componenti, procedure per la diagnosi di base, e cos� via).
Suggerimento
Prima di accingervi a porre rimedio a tale problema, assicuratevi che l'hardware in questione:
Non sia sotto garanzia
Non sia vincolato da alcun contratto di servizio/mantenimento di ogni tipo
Se cercate di far fronte al problema che si � verificato ma l'hardware � ancora sotto la garanzia e/o vincolato da un contratto particolare, probabilmente sarete in procinto di violare i termini di questi agreement, annullando cos� la copertura della garanzia o di altri accordi.
Tuttavia, anche se avete una conoscenza di base, potreste essere in grado di diagnosticare effettivamente e sostituire le unit� hardware in questione — se avete precedentemente scelto una gamma idoneadi unit� di ricambio.
8.1.1.1.2. Cosa selezionare?
Questa domanda evidenzia le diverse sfaccettature della natura di qualsiasi elemento appartenente al disaster recovery. Quando considerate il tipo di hardware da conservare, ecco alcune delle problematiche da ricordare:
Downtime massimo permesso
Le conosceze necessarie per eseguire una riparazione
Il budget disponibile per le unit� di ricambio
Il loro spazio di storage necessario
Altro hardware in grado di utilizzare le stesse unit� di ricambio
Ciascuno di questi punti � in relazione al tipo di unit� di ricambio da conservare. Per esempio, conservare un sistema completo tenderebbe a minimizzare il downtime e richiederebbe una conoscenza minima per l'installazione, ma risulterebbe pi� costoso rispetto ad una CPU o modulo RAM di ricambio. Tuttavia, tale spesa potrebbe essere giustificata, se la vostra organizzazione possiede diversi server tutti identici tra loro, che possono trarre beneficio da un singolo sistema di riserva.
Indipendentemente dalla decisione finale, bisogna affrontare la seguente ed inevitabile domanda.
8.1.1.1.2.1. Quanto ne devo conservare?
La questione dei livelli delle unit� di ricambio possiede anch'essa diverse sfaccettature. Ecco le problematiche principali:
Downtime massimo permesso
Percentuale d'errore prevista
Tempo stimato per rifornire lo stock
Il budget disponibile per le unit� di ricambio
Il loro spazio di storage necessario
Altro hardware in grado di utilizzare le stesse unit� di ricambio
Per un sistema che � in grado di affrontare un downtime di due giorni, e che necessit� di una unit� di riserva che viene usata una volta l'anno, la quale pu� essere reperita in 24 ore, potrebbe essere consigliato di avere al massimo una unit� di riserva (in certi casi � possibile anche essere sprovvisti di tale unit� se siete in grado di assicurare la suddetta entro e non oltre le 24 ore di tempo).
Viceversa, un sistema che non � in grado di permettersi un periodo di downtime maggiore a due minuti, e che possiede una unit� di riserva la quale viene usata una volta al mese (e che la stessa impiega diverse settimane per essere reperita), potrebbe significare la necessit� di conservare non una ma diverse unit� di riserva.
8.1.1.1.3. Unit� di riserva che non sono di 'riserva'
Quando una unit� di riserva risulta non essere di riserva? Quando essa rappresenta un hardware idoneo ad un suo uso giornaliero, ma che risulta essere anche idoneo come unit� di riserva per sistemi con una priorit� pi� elevata. Questo approccio presenta alcuni benefici:
Meno risorse economiche per le unit� di riserva "non produttive"
L'hardware viene annoverato come unit� operativa
Sono presenti, tuttavia, alcuni lati negativi per questo tipo di approccio:
La produzione normale dei compiti a bassa priorit� viene interrotta
Presenza di una potenziale esposizione se si verifica un errore hardware con bassa priorit� (lasciando nessuna unit� di riserva per l'hardware con una priorit� elevata)
A causa di queste limitazioni, l'utilizzo come riserva di un altro sistema di produzione potrebbe risultare utile, ma il successo di questo approccio dipende dal carico spedifico di lavoro, e dall'impatto che ha l'assenza del sistema nelle operazioni generali del centro dati.
8.1.1.2. Contratti sul servizio
I contratti relativi ai servizi fanno si che i problemi di natura hardware vengano affrontati e possibilmente risolti da altre persone. Tutto ci� che viene a voi richiesto � quello di confermare che si sia verificato un problema all'hardware e che lo stesso non sia dovuto al software. Potete successivamente contattare il personale preposto per risolvere tale problema.
Sembra facile. Ma come molte altre cose nella vita, c'� di pi�. Ecco alcune considerazioni da fare nella selezione di un contratto relativo ad un servizio:
Orari di copertura
Tempo di risposta
Disponibilit� delle parti di ricambio
Budget disponibile
Hardware ricoperto dal contratto
Affronteremo questi dettagli pi� da vicino nelle segunti sezioni.
8.1.1.2.1. Orari di copertura
Sono disponibili diversi contratti a seconda delle diverse necessit�; una delle variabili inerenti ai diversi contratti � relativa agli orari di copertura. Se non desiderate pagare una copertura di tipo premium, purtroppo non � sempre possibile chiamare in ogni momento ed aspettarsi un tecnico pronto ad assistervi.
In base al vostro contratto, potreste trovarvi nella situazione dove non sarete in grado di usufruire del servizio se non per un determinato giorno/orario, oppure non sar� possibile ottenere l'assistenza di un tecnico se non per un determinato giorno/orario specificato nel vostro contratto.
In molti casi gli orari di copertura vengono definiti in termini di orari e giorni durante i quali i tecnici sono disponibili. Alcune degli orari di copertura pi� comuni sono:
Da luned� al venerd�, dalle 09:00 alle 17:00
Da Luned� al venerd�, 12/18/24 ore ogni giorno (con orari prestabiliti)
Da Luned� al venerd�, (o dal luned� alla domenica), stessi orari come sopra specificati
Come prevedibile, il costo di un contratto aumenta con l'aumentare della copertura del servizio. In generale, avere una copertura che v� dal luned� al venerd� tende ad essere meno costosa se invece si aggiungesse anche il sabato e la domenica.
Ma anche in questa circostanza � possibile ridurre i costi del servizio se siete in grado di svolgere, in prima persona, parte del lavoro.
8.1.1.2.1.1. Servizio Depot
Se avete bisogno solo della disponibilit� di un tecnico durante l'orario lavorativo normale, e siete in possesso di una sufficiente esperienza che vi permette di determinare cosa non v�, potreste considerare di utilizzare un servizio depot. Conosciuto sotto diversi nomi (incluso anche walk-in service e drop-off service), i rivenditori potrebbero avere dei depositi dove i tecnici possono svolgere il loro lavoro direttamente sull'hardware fornito dagli utenti.
Il suddetto servizio presenta il beneficio di essere molto rapido tanto quanto lo siete voi. Non � necessario aspettare la disponibilit� di un tecnico il quale viene di persona nel vostro ufficio, casa ecc. I suddetti tecnici, non sono disponibili su chiamata, essi infatti svolgono il loro lavoro in depositi o laboratori, e appena voi stessi portate il vostro hardware in uno di questi centri, essi esplicano le loro funzioni.
Poich� questo tipo di servizio viene eseguito da un ufficio centrale, � molto probabile che la parte da sostituire sia disponibile. Questo riduce al massimo la probabilit� di dover attendere l'arrivo di un nuovo pezzo di ricambio proveniente da un altro deposito distante centinaia di chilometri da voi.
Ci sono comunque alcuni lati negativi. Quello pi� ovvio � quello di non poter scegliere gli orari di servizio — potete usufruire di questo servizio solo quando il deposito � aperto. Un altro aspetto negativo � che i tecnici non vanno oltre il loro normale orario lavorativo, ci� significa che se il vostro problema si � verificato alle 16:30 di venerd�, e voi portate il vostro sistema al deposito per le 17:00, il lavoro verr� eseguito non prima di luned� mattina.
Un altro fattore che pu� essere determinante nella scelta di questo tipo di servizio � quello di valutare se il deposito si trovi in zone limitrofe. Se la vostra organizzazione � situata in un'area metropolitana non dovrebbe essere un problema. Tuttavia, le organizzazioni che si trovano in zone rurali potrebbero avere qualche problema in pi�.
Suggerimento
Se desiderate scegliere tale servizio, prendete in considerazione anche il modo con il quale trasportare il vostro hardware al deposito pi� vicino. A tale scopo siete in grado di usare una vettura della vostra compagnia oppure la vostra? Se � la vostra, avete una capacit� di carico accettabile con il relativo spazio a voi necessario? La vostra vettura � assicurata? Per caricare l'hardware nella vettura � necessario l'aiuto di un'altra persona?
Anche se queste potrebbero essere considerazioni di secondo piano, esse devono essere risolte prima di scegliere definitivamente l'uso di questo servizio.
8.1.1.2.2. Tempo di risposta
In aggiunta agli orari di copertura, molti agreement hanno un livello specifico inerente il tempo di risposta. In altre parole, quando telefonate per chiedere assistenza, quanto tempo trascorre dalla vostra telefonata prima che un tecnico sia in grado di contattarvi? Come potete immaginare, ad un tempo di risposta molto rapido ne consegue un agreement pi� costoso.
Vi sono dei limiti ai tempi di risposta disponibili. Per esempio, Il tempo necessario per arrivare dall'ufficio del rivenditore al vostro, risulta influenzare molto sui tempi di risposta disponibili[1]. Il tempo medio di risposta che si aggira intorno alle quattro ore, viene generalmente considerato molto buono. I tempi di risposta pi� lenti possono andare dalle otto (il che pu� essere considerato come assistenza per il "giorno successivo" per un agreement standar), alle 24. Come molti agreement il costo � — negoziabile.
Nota Bene
Anche se non � una cosa comune, dovete essere a conoscenza che gli agreement che presentano alcune clausole sul tempo di risposta, possono portare il servizio di una organizzazione oltre ai limiti di adempimento della stessa. Pu� capitare che alcune organizzazioni molto occupate in tale servizio, possano inviare il loro personale — chiunque — per rispondere ad una chiamata con un tempo di risposta brevissimo, solo per rientrare nei limiti prefissati dal tempo di risposta stesso. Questa persona trova il difetto, chiama "l'ufficio" in modo che un'altra persona possa portare il "pezzo di ricambio idoneo."
Ma in effetti essi stanno aspettando la disponibilit� di un tecnico in grado di far fronte alla situazione.
Questa situazione potrebbe essere accettabile in circostanze straordinarie (come ad esempio la presenza di problemi di alimentazione che hanno danneggiato la maggior parte dei sistemi presenti nell'area di servizio), ma se questo metodo viene impiegato regolarmente, � consigliabile contattare il responsabile del servizio e chiedere spiegazioni.
Se le vostre necissit� richiedono un tempo di risposta molto rapido (e il vostro budget risulta essere molto ampio), vi � un approccio che pu� ridurre maggiormente il vostro tempo di attesa — fino a zero.
8.1.1.2.2.1. Tempo di risposta pari a zero — Significa avere un tecnico interno
Data la situazione appropriata (voi rappresentate uno dei clienti pi� importanti presenti nell'area), date determinate necessit� (qualsiasi downtime non � accettabile), e risorse finanziarie (se domandate il prezzo forse significa che non potete permettervelo), potreste rappresentare il cliente giusto per avere un tecnico permanente interno. I benefici di un tecnico interno sono ovvi:
Risposta istantanea ad un problema
Un approccio pi� attivo per la gestione di un sistema
Come potete immaginare questa opzione potrebbe risultare molto costosa, particolarmente se avete la necessit� di avere a disposizione un tecnico 24 ore su 24, sette giorni su sette. Ma se questo approccio risulta essere il pi� idoneo per la vostra organizzazione, ricordatevi alcuni punti in modo da ottenere il massimo dei benefici.
Per prima cosa, i tecnici interni necessitano di pi� risorse rispetto ad un impiegato normale, ad esempio spazio sufficiente, un telefono, schede d'accesso appropriate e/o chiavi, e cos� via.
Essi possono risultare di poco aiuto se non possiedono gli strumenti giusti. Per questo, assicuratevi di avere uno storage sicuro per le parti di ricambio utili al tecnico. In aggiunta, assicuratevi che il tecnico conservi uno stock di parti idonee alla vostra configurazione, e che le stesse non vengano "cannibalizzate" da altri tecnici.
8.1.1.2.3. Disponibilit� delle parti di ricambio
Ovviamente, la disponibilit� delle parti di ricambio ricopre un ruolo molto importante nel limitare l'esposizione ad eventuali problemi del vostro hardware. All'interno di un contesto di un agreement,la disponibilit� delle suddette parti ricopre una certa importanza, in quanto tale disponibilit� non � fondamentale solo per il vostro ufficio, ma anche per i clienti presenti nel territorio che ne fanno uso. Il problema della disponibilit� potrebbe intaccare negativamente la vostra organizzazione, in quanto si potrebbe verificare che una organizzazione a voi concorrente possa aver acquistato un maggior numero di parti hardware, e potrebbe avere un trattamento migliore quando si ripresenta la necessit� di acquistare parti di ricambio (oppure in termini di tecnici).
Sfortunatamente, non c'� molto che si possa fare in queste circostanze, l'unica alternativa � di risolvere il problema con il service manager.
8.1.1.2.4. Budget disponibile
Come sopra riportato, i contratti possono variare nel prezzo a seconda della narura dei servizi forniti. Tenete presente che i costi associati con un contratto rappresentano una spesa periodica; ogni talvolta un contratto st� per scadere, � necessario negoziare un nuovo contratto e quindi pagarlo.
8.1.1.2.5. Hardware ricoperto dal contratto
Ecco un'area dove i costi possono essere mantenuti al minimo. Considerate per un istante di aver appena raggiunto un accordo che vi permette di avere un tecnico interno 24 ore su 24, sette giorni su sette, con la presenza di pezzi di ricambio interni — e voi lo nominate. Ogni singola parte hardware che avete acquistato � coperta dal servizio, incluso il PC che la ricezione utilizza per i suoi compiti non critici.
In questo caso potreste domandarvi se il suddetto PC abbia effettivamente bisogno di un tecnico interno 24 ore su 24 sette giorni su sette. Anche se il PC risulta essere vitale per il lavoro di ricezione, l'impiegato preposto a tale compito lavora solo dalle 09:00 alle 17:00; quindi sar� molto difficile che:
Il PC verr� utilizzato dalle 17:00 alle 09:00 del giorno seguente (senza considerare i fine settimana)
Verr� notata la presenza di un problema su questo PC, tra le 09:00 e le 17:00
Per questo motivo risulta inutile l'assistenza del suddetto PC durante il fine settimana, risulterebbe essere una perdita di denaro.
La cosa migliore da fare risulta quella di dividere in due l'agreement sul servizio, in modo tale che un hardware adibito per compiti non critici, venga raggruppato separatamente da quello adibito a compiti pi� importanti.In questo modo � possibile contenere il pi� possibile i costi.
Nota Bene
Se avete venti server configurati in modo simile e che risultano essere critici per la vostra organizzazione, potrebbe risultare conveniente avere un agreement solo per uno o due di essi, con il resto coperto da un agreement meno oneroso. In questo modo non importa quale server presenta un problema durante il fine settimana, voi serete sempre in grado di dire che il server in questione � quello ricoperto dal servizio pi� costoso.
Non fate quanto sopra riportato. Non solo perch� risulta essere disonesto, ma anche perch� molti rivenditori mantengono traccia dell'agreement stipulato, implementando numeri seriali. Anche se riuscite a trovare un modo per aggirare questo ostacolo, risulta essere molto pi� oneroso per voi affrontarne le spese una volta scoperti, che invece pagare regolarmente il servizio desiderato.
8.1.2. Problemi software
I problemi software possono risultare in un downtime esteso. Per esempio, i possessori di un determinato tipo di sistemi computerizzati conosciuti per le loro caratteristiche di alta disponibilit�, hanno recentemente riscontrato un problema. Un bug presente nel codice di gestione dell'orario del sistema operativo del computer, ha come risultato il crashing del sistema stesso in un determinato istante, e in un determinato giorno. Anche se questa situazione in particolare potrebbe risultare un esempio un p� estremo, altre problematiche relative al software potrebbero essere meno drammatiche ma allo stesso tempo devastanti.
Le problematiche relative al software possono colpire una delle due aree:
Sistemi operativi
Applicazioni
Ogni tipo di problematica presenta uno specifico impatto e viene affrontata in dettaglio nelle seguenti sezioni:
8.1.2.1. Problematiche relative al sistema operativo
Con questo tipo di problema, il sistema operativo � responsabile per l'interruzione del sistema. Le problematiche del sistema operativo hanno le loro origini da due diverse aree:
Crash del sistema
Sospensione del sistema
La cosa principale da ricordare delle problematiche riguardanti il sistema operativo � che le suddette problematiche possono far perdere tutto ci� che era in esecuzione durante il verificarsi di un problema. Per questo motivo essi possono avere un impatto devastante nella catena produttiva di una organizzazione.
8.1.2.1.1. Crash del sistema
Il crash del sistema operativo si verifica quando si � in presenza di un errore attraverso il quale il sistema non � in grado di ripristinare le sue funzioni. I motivi di questi crash variano e vanno dalla incapacit� di gestire un problema hardware, alla presenza di un bug nel codice al livello del kernel comprendente il sistema operativo. Quando si verifica un crash del sistema operativo, il sistema deve essere riavviato per continuare la sua funzione.
8.1.2.1.2. Sospensione del sistema
Quando il sistema operativo non gestisce pi� gli eventi del sistema, il sistema stesso si arresta. Questa procedura � conosciuta come hang. Tali sospensioni possono essere causate da deadlocks (due utenti che si contendono reciprocamente le loro risorse), e livelocks (due o pi� processi che rispondono alle rispettive attivit�, senza eseguire alcun lavoro utile), ma il risultato finale � lo stesso — carenza di produttivit�.
8.1.2.2. Problemi con le applicazioni
Diversamente dai problemi relativi ai sistemi operativi, quelli inerenti alle applicazioni possono essere pi� limitate. A seconda dell'applicazione specifica, il verificarsi di un problema ad una singola applicazione potrebbe influenzare solo una persona. D'altra canto se il suddetto problema riguarda un'application server capace di servire un gran numero di applicazioni client, le conseguenze saranno pi� di larga scala.
Il problema riguardante l'applicazione, come quello riguardante il sistema operativo, � che essa pu� essere soggetta a sospensioni o ad un crash; la sola differenza � che ad essere sospesa o essere soggetta ad un crash � in questo caso � solo l'applicazione.
8.1.2.3. Come ottenere il supporto — Supporto software
Proprio come i rivenditori hardware forniscono un supporto per i loro prodotti, anche i rivenditori software rendono disponibili per i loro clienti dei pacchetti di supporto. Eccetto le ovvie differenze (nessun ricambio hardware � necessario, e la maggior parte del lavoro pu� essere svolto attraverso il telefono), i contratti di supporto software possono essere molto simili a quelli hardware.
Il livello di supporto fornito da un rivenditore software pu� variare. Ecco alcune delle strategie pi� comuni usate al giorno d'oggi:
Documentazione
Supporto autonomo
Supporto email o web
Supporto telefonico
Supporto On-site
Ogni tipo di supporto viene analizzato nelle seguenti sezioni.
8.1.2.3.1. Documentazione
Anche se spesso trascurata, la documentazione software rappresenta il primo tool di supporto. Sia online che stampata, la documentazione spesso contiene le informazioni utili necessarie per risolvere i problemi.
8.1.2.3.2. Supporto autonomo
Il supporto autonomo rappresenta quel tipo di supporto dove il cliente, usando le risorse online, risolve i problemi relativi al proprio software. Molto spesso queste risorse prendono la forma di FAQ basate sul web (domande frequenti), o basate sulla conoscenza personale.
Le FAQ molto spesso non hanno alcuna capacit� di selezione, condizionando il cliente a controllare ogni singola domanda fino a quando non si trova quella giusta. Le risorse basate sulla conoscenza sono spesso pi� complesse, permettendo la ricerca di determinati termini. Le suddette risorse possono essere molto varie, rendendole uno dei migliori tool per la risoluzione dei problemi.
8.1.2.3.3. Supporto email o web
Molto spesso ci� che sembra un sito web di supporto autonomo, include anche indirizzi email e forme di supporto web i quali rendono possibile l'invio di domande al personale di supporto. Anche se il suddetto metodo potrebbe sembrare un miglioramento di tale supporto, tutto dipende per� dall'efficienza del personale preposto alle risposte.
Se il suddetto personale risulta superficiale nelle risposte, questo potrebbe essere causato dalle esigenze di rispondere ad ogni singola richiesta molto velocemente in modo da rispondere al maggior numero possibile di email. La ragione st� nel fatto che il personale facente parte di questi gruppi di supporto, vengono valutati in base al numero di email che hanno risposto. Risulta essere quindi molto difficile anche il seguire in modo pi� approfondito il problema di una persona, in quanto — la persona preposta alla risposta della vostra email non far� altro che pensare a rispodere il pi� velocemente possibile in modo da concentrarsi sull'email successiva.
Il miglior modo per far fronte a tale problema � quello di accertarsi che la vostra email contenga domande specifiche, come ad esempio:
Descrivere chiaramente la natura del problema
Includere tutti i possibili numeri della versione
Descrivere le vostre azioni atte alla risoluzione del problema (applicazione delle ultimissime patch, riavvio con una configurazione minima, ecc.)
Dando al tecnico pi� informazioni possibili avrete una maggiore possibilt� di ottenere una risposta esauriente.
8.1.2.3.4. Supporto telefonico
Come indicato dal nome, il supporto telefonico vi d� la possibilit� di parlare direttamente con un tecnico. Questo tipo di supporto � molto simile al supporto hardware, disponibile anche con diversi livelli di supporto (con diversi orari di copertura, di tempi di risposta, ecc.)
8.1.2.3.5. Supporto On-site
Conosciuto anche come consultazione on-site, tale supporto viene riservato per la risoluzione di problemi specifici o l'effettuazione di modifiche critiche, come ad esempio l'installazione iniziale del software, la configurazione, e cos� via. Come previsto, esso rappresenta il supporto software pi� costoso.
Vi sono alcuni casi dove il supporto on-site risulta essere quello pi� idoneo. Per esempio, considerate una piccola organizzazione che possiede solo un amministratore. La suddetta organizzazione st� per impiegare il primo server database, ma l'utilizzo (e l'organizzazione) non sono sufficientemente grandi da poter giustificare l'assunzione di un amministratore per la gestione del database stesso. In questa situazione, risulterebbe essere meno costoso impiegare uno specialista proveniente direttamente dal rivenditore, e quindi gestire tutte le problematiche dovute all'impiego iniziale (e occasionalmente in una fase futura, se necessario), che istruire un amministratore che user� le nozioni appena apprese in modo molto saltuario.
8.1.3. Problematiche riguardanti l'ambiente
Anche se l'hardware funziona correttamente e il software � stato configurato in modo corretto, � sempre possibile riscontrare alcuni problemi. I problemi pi� comuni che si possono verificare esternamente al sistema, sono quelli che implicano l'ambiente fisico nel quale risiede il sistema stesso.
I problemi riguardanti l'ambiente possono essere suddivisi in quattro categorie:
Integrit� dell'edificio
Elettricit�
Aria condizionata
Condizioni atmosferiche ed ambiente esterno
8.1.3.1. Integrit� dell'edificio
Per una struttura cos� semplice, un edificio � in grado di fornire diverse funzioni. Esso fornisce una copertura, fornisce il micro-clima ideale per gli oggetti e le persone presenti al suo interno, possiede meccanismi in grado di fornire alimentazione e protezione contro il fuoco, il furto e contro atti vandalici. Garantendo tutto ci�, non deve destare sorpresa se la scelta dell'edificio pi� idoneo ricopre una certa importanza. Ecco alcune considerazioni:
Ci possono essere delle infiltrazioni d'acqua, permettendo alla stessa di arrivare fino al centro dati.
Alcuni edifici possono risultare non idonei (problemi inerenti l'acqua, il sistema fognario o il riciclo di aria), rendendo cos� l'edifico non utilizzabile.
I pavimenti possono avere un limite di sopportazione del carico non sufficiente per poter ospitare l'equipaggiamento da voi scelto per far parte del centro dati.
� importante avere una mentalit� molto elastica nel riconoscere i diversi motivi per i quali un edificio potrebbe risultare non idoneo. Ecco un elenco che vi aiuter� a determinare le diverse cause.
8.1.3.2. Elettricit�
Poich� l'elettricit� rappresenta la linfa vitale per ogni sistema operativo, le problematiche relative all'alimentazione sono di vitale importanza. Ci sono diversi aspetti da considerare relativi all'alimentazione; essi vengono affrontati in modo pi� dettagliato nelle seguenti sezioni.
8.1.3.2.1. La sicurezza della vostra alimentazione
Come prima cosa, � necessario determinare quanto possa essere sicura la vostra fonte normale di elettrcit�. Proprio come ogni centro dati, la vostra fonte di elettricit� viene rappresentata da una compagnia locale in grado di fornire elettricit� tramite cavi elettrici. Per questo motivo, ci sono alcuni limiti su quello che potete fare per assicurarvi che la vostra fonte di energia sia sicura.
Suggerimento
Le organizzazioni situate vicino ai confini di un'azienda in grado di fornire elettricit�, potrebbero essere in grado di negoziare i propri collegamenti elettrici in modo seguente:
Con l'azienda in grado di servire la vostra area
E con l'azienda in grado di fornire elettricit� in un'area diversa dalla vostra ma confinante
I costi necessari per l'uso di cavi elettrici provenienti da un'azienda fornitrice di energia elettrica in una area diversa ma confinante, sono molto elevati rendendo disponibile questa opzione solo per le organizzazioni pi� grandi. Tuttavia, alcune organizzazioni in molti casi, possono trovare che i benefici per una tale opzione possano giustificare i costi.
� consigliabile sempre controllare i metodi attraverso i quali l'alimentazione viene resa disponibile alla vostra organizzazione e al vostro edificio in generale. Per questo motivo controllate se i cavi sono sotterranei oppure utilizzano tralicci elettrici. Quest'ultimi sono soggetti a:
Danni causati per colpa di condizioni atmosferiche avverse (ghiaccio, vento, temporali)
Incidenti stradali che possono danneggiare i tralicci e/o i trasformatori
Presenza di animali che possono compromettere il normale lavoro dei cavi
Tuttavia, anche i cavi sotterranei presentano i loro lati negativi:
Danni dovuti ai lavori di scavatura
Inondazioni
Temporali (anche se in maniera pi� lieve)
Continuando a seguire il percorso dei cavi, controllate se questi passano, prima di arrivare all'interno del vostro edificio, attraverso un trasformatore esterno. Controllate anche se il trasformatore sia protetto contro incidenti dovuti a veicoli o alla caduta di alberi. Inoltre controllate se gli interruttori siano protetti per evitare un uso non autorizzato.
Una volta all'interno dell'edificio, controllate se i cavi elettrici (o i pannelli ai quali essi sono collegati), possano essere soggetti ad altri problemi. Per esempio, controllate se un problema di natura idraulica possa presentare un problema per i cavi.
Continuando a seguire i cavi fino a raggiungere il centro dati, controllate se vi sono altri ostacoli che possano intaccare il normale approvvigionamento di energia elettrica. Per esempio, controllare se il centro dati condivide uno o pi� circuiti con i carichi che non fanno parte del centro dati stesso, se cos� fosse, � possibile che si possa verificare un sovraccarico di corrente, azionando cos� i circuiti di protezione e intaccando cos� il normale funzionamento del centro dati.
8.1.3.2.2. Qualit� di alimentazione
Non � sufficiente assicurarsi che la fonte di alimentazione del centro dati sia la pi� sicura possibile. � importante anche assicurarsi della qualit� di alimentazione distribuita all'intero del centro dati. Per questo motivo ci sono diversi fattori da considerare:
Voltaggio
Il voltaggio della corrente elettrica deve essere stabile, con nessuna riduzione (spesso riferita come perdite, cadute, o sottotensioni) o aumenti (spesso conosciuti come picchi e sovratensioni).
Forma dell'onda elettrica
La forma dell'onda elettrica deve essere sinusoidale, con un valore minimo di THD (Total Harmonic Distortion).
Frequenza
La frequenza deve essere stabile (molte nazioni usano una frequenza di alimentazione di 50Hz o 60Hz).
Rumore
L'alimentazione non deve includere qualsiasi rumore di tipo RFI (Radio Frequency Interference) o EMI (Electro-Magnetic Interference)
Corrente
L'alimentazione deve essere fornita con una corrente sufficiente per far funzionare il centro dati.
L'alimentazione generalmente fornita dall'azienda produttrice di energia elettrica, normalmente non � idonea agli standard necessari per un centro dati. Per questo motivo, sono necessari alcuni tipi di adattatori di alimentazione. Sono presenti diversi approcci:
Scaricatori modulari
Gli scaricatori modulari — filtrano i flussi provenienti dalla sorgente di alimentazione. La maggior parte di essi non fanno altro, lasciando cos� l'apparecchiatura vulnerabile ad altri problemi.
Adattatori di alimentazione
Gli adattatori di alimentazione hanno un approccio pi� completo; a seconda della natura dell'unit�, essi possono far fronte alla maggior parte dei problemi sopra indicati.
Unit� Motore-Generatore
Una unit� motore-generatore � composta da un grande motore elettrico alimentato dalla vostra fonte di alimentazione normale. Il motore � collegato ad una ruota rotante molto grande, la quale � collegata ad un generatore. In questo modo, il motore � in grado di far girare la ruota, facendo produrre al generatore una quantit� di elettricit� sufficiente per alimentare il centro dati. In questo modo, l'alimentazione del centro dati � isolata da quella esterna, ci� comporta quindi una riduzione di numerosi problemi. La ruota rotante fornisce anche la possibilit� di mantenere costante l'alimentazione anche in presenza di cadute di tensione in quanto la ruota rotante ha bisogno di alcuni secondi prima di fermarsi.
Alimentazione costante 'Uninterruptible Power Supplies'
Alcuni tipi di Uninterruptible Power Supplies (pi� comunemente conosciuti come UPS), includono alcune (se non tutte) protezioni di un adattatore di alimentazione [2].
Con le ultime due tecnologie sopra elencate, iniziamo ad affrontare un argomento molto importante che coinvolge un gran numero di persone — l'alimentazione di backup. Nella sezione successiva, vengono affrontati i diversi approcci per fornire un'alimentazione di backup.
8.1.3.2.3. Alimentazione di backup
Un termine relativo all'alimentazione che quasi tutti conoscono � blackout. Un blackout non � altro che una perdita di corrente che pu� andare da una frazione di secondo a delle settimane.
Poich� la durata di questi blackuot � variabile, � necessario implementare una forma di alimentazione di backup, in modo da far fronte a qualsiasi imprevisto.
Suggerimento
Il blackout medio dura circa pochi secondi; quelli di durata superiore sono pi� rari. Per questo motivo, proteggetevi contro blackout che hanno una durata breve, e successivamente provate a risolvere il problema di come far fronte ad un blackout pi� lungo.
8.1.3.2.3.1. Fornire alimentazione per pochi secondi
Poich� la maggior parte dei blackout durano solo pochi secondi, la soluzione adottata per fornire alimentazione di backup deve comprendere due caratteristiche principali:
Un tempo relativamente breve per smistarsi sull'alimentazione di backup (conosciuto come tempo di trasferimento)
Un periodo di esecuzione (il periodo di durata del backup), misurato in secondi e minuti
Le soluzioni per l'alimentazione di backup che corrispondono a queste caratteristiche sono gli insiemi motore-generatore e gli UPS. La ruota rotante presente nell'insieme motore-generatore, permette di far fronte a blackout di breve durata, circa un secondo. Essi generalmente sono molto grandi e costosi, e ideali per centro dati medio-grandi.
Tuttavia, un altro tipo di tecnologia — chiamata UPS — pu� sostituire la soluzione rappresentata da un insieme motore-generatore in quanto troppo costosa. L'UPS � in grado di far fronte a blackout pi� lunghi.
8.1.3.2.3.2. Fornire alimentazione per pochi minuti
Gli UPS possono essere acquistati in diverse dimensioni — abbastanza piccoli per eseguire un PC low-end piccolo per cinque minuti, o sufficientemente grande per alimentare un intero centro dati per pi� di una ora.
Gli UPS sono composti dalle seguenti parti:
Un interruttore di smistamento, per smistarsi dalla fonte di alimentazione principale a quella di backup
Una batteria, per fornire alimentazione di backup
Un invertitore, il quale converte la corrente DC continua della batteria in corrente AC alternata necessaria per l'hardware del centro dati
Non tenendo in considerazione la misura e la capacit� della batteria dell'unit�, gli UPS sono principalmente di due tipi
L'UPS offline utilizza il proprio invertitore per generare alimentaazione solo quando la fonte primaria non � in grado di farlo
L'UPS online utilizza il proprio invertitore per generare continuamente alimentazione, alimentando l'invertitore tramite la sua batteria solo quando la fonte di alimentazione principale non � in grado di farlo.
Ogni tipo presenta i propri vantaggi e svantaggi. L'UPS online � generalmente meno costoso, in quanto l'invertitore non deve essere impostato per un lavoro costante. Tuttavia, se si verifica un problema in un invertitore di un UPS offline, esso non verr� notato (almeno fino a quando non si verifica un problema all'alimantazione).
Gli UPS online tendono ad essere migliori nel fornire un'alimentazione pulita al vostro centro dati; esso fornisce essenzialmente alimentazione in modo costante.
Non ha importanza quale tipo di UPS selezionate, � necessarrio configurarlo in modo da essere idoneo al carico (e quindi assicuratevi che l'UPS abbia una capacit� sufficiente per produrre elettricit� come richiesto, e cio� con un corretto voltaggio e corrente), e determinare la durata entro la quale deve operare per essere in grado di fornire alimentazione tramite la batteria.
Per ottenere tutte queste informazioni, � necessario determinare prima il carico che l'UPS deve fornire. Controllate ogni singolo pezzo e determinate la quantit� di alimentazione che � possbile fornire (queste informazioni sono generalmente riportate su di una etichetta). Annotate il voltaggio, i watt, e/o ampere. Una volta ottenute tutte queste informazioni, convertitele in VA (Volt-Ampere). Se avete un numero di watt, potete usare i watt elencati come VA; se avete gli ampere, moltiplicateli per i volt per ottenere i VA. Aggiungendo i risultati di VA, potete ottenere approssimativamente il numero di VA necessari per il vostro UPS.
Nota Bene
Questo tipo di calcolo per la determinazione di VA non � proprio corretto; tuttavia, per ottenere il vero valore di VA dovreste sapere il fattore di alimentazione per ogni unit�, ma purtroppo questa informazione viene raramente fornita. In ogni modo, i numeri riguardanti il VA ottenuti in questo modo, riflettono valori molto approssimativi, lasciando cos� un ampio margine d'errore.
La determinazione del periodo di esecuzione si traduce pi� in un aspetto aziendale che in un aspetto tecnico — contro che tipo di disfunzioni desiderate proteggervi, e quanto desiderate spendere? Molti scelgono periodi di esecuzione che si aggirano ad una ora, in alcuni casi anche a due ore, in quanto oltre a questi limiti, le batterie che forniscono questa copertura sono molto costose.
8.1.3.2.3.3. Fornire alimentazione per alcune ore (ed oltre)
Quando si hanno delle disfunzioni nell'alimentazione che si protraggono per giorni, le scelte da fare sono molto costose. Le tecnologie in grado di far fronte ad un simile problema sono limitate a generatori alimentati da motori — principalmente turbine a gas o diesel.
Nota Bene
Ricordatevi che i generatori alimentati da motori necessitano di carburante durante la loro esecuzione. � necessario quindi conoscere il "consumo" di carburante del vostro generatore con carico massimo, e conseguentemente organizzare la consegna di carburante.
A questo punto le vostre opzioni sono svariate, pur assumendo che la vostra organizzazione abbia a disposizione sufficienti risorse finanziarie. In questo caso � consigliabile la presenza di esperti, in modo da potervi aiutare nella determinazione della soluzione migliore per la vostra organizzazione. Pochissimi amministratori di sistema possiedono la conoscenza necessaria per pianificare l'acquisizione e l'impiego di questi sistemi.
Suggerimento
� possibile affittare generatori portatili di qualsiasi dimensione, sfruttando i loro benefici senza far fronte alle spese iniziali necessarie per il loro acquisto. Tuttavia, ricordatevi che a causa dei numerosissimi problemi, spesso vi � una carenza di generatori, e quindi il loro affitto potrebbe risultare molto oneroso.
8.1.3.2.4. Pianificazione di un blackout esteso
Un blackout di cinque minuti pu� sembrare un piccolo inconveniente durante una normale giornata lavorativa, ma quali conseguenze pu� apportare un blackout di una ora? Cinque ore? Un giorno? Una settimana?
Anche se un centro dati funziona regolarmente, un blackout esteso potrebbe in qualche modo influenzare la vostra organizzazione. Considerate i seguenti punti:
Cosa pu� succedere se non vi � pi� alimentazione per gestire il controllo dell'ambiente in un centro dati?
Cosa pu� succedere se non vi � pi� alimentazione per gestire il controllo dell'ambiente di tutto l'edificio?
Cosa pu� succedere se non vi � pi� alimentazione per far funzionare le workstation personali, il sistema telefonico e le luci?
Il punto da fare in questo caso � il seguente, fino a quando la vostra organizzazione � in grado di tollerare un blackout esteso. Oppure, se questo punto non rappresenta una opzione, la vostra organizzazione deve considerare la possibilit� di continuare ad operare in ogni circostanza, adottando generatori molto grandi per alimentare tutto l'edificio.
Naturalmente � possibile che la causa che abbia determinato un blackout esteso nei confronti della vostra organizzazione, possa aver influenzato anche il mondo esterno, causando un serio problema nell'abilit� della vostra organizzazione a continuare le normali funzioni, anche se la stessa possiede una capacit� illimitata per quanto riguarda i generatori di alimentazione.
8.1.3.3. Riscaldamento, ventilazione, e aria condizionata
I sistemi di riscaldamento, di ventilazione e di aria condizionata (HVAC) utilizzati negli edifici moderni sono molto sofisticati. Spesso sono controllati da computer, il sistema HVAC � indispensabile per fornire un ambiente lavorativo molto confortevole.
Generalmente un centro dati possiede un sistema di aria condizionata aggiuntivo, in questo modo � in grado di affrontare il problema dovuto alle alte temperature generate dei computer e dalle apparecchiature associate. La presenza di problemi in un sistema HVAC pu� risultare devastante per il normale funzionamento di un centro dati. Data la loro complessit� e la natura elettro-meccanica, le possibilit� che questo avvenga sono molto elevate ed al tempo stesso molto varie. Ecco alcuni esempi:
Le unit� che gestiscono l'aria condizionata (generalmente composte da ventilatori molto grandi con motori elettrici) possono presentare alcuni problemi di natura elettrica, di portante, di cinghia/puleggia ecc.
Le unit� di ventilazione (chiamate spesso chillers), possono perdere le loro capacit� a causa di perdite, o a causa del bloccaggio del loro compressore e/o motore.
La riparazione e la gestione dei sistemi HVAC rappresenta un campo molto specializzato — un campo che un normale amministratore di sistema dovrebbe lasciare agli esperti. L'unica cosa che egli pu� garantire, � quella di assicurare l'esecuzione di un controllo giornaliero ai suddetti sistemi (considerate anche un controllo pi� frequente), e che gli stessi siano mantenuti in accordo alle indicazioni del rivenditore.
8.1.3.4. Condizioni atmosferiche e fattori esterni
Talvolta si possono verificare particolari condizioni atmosferiche che possono causare problemi ad un amministratore:
Abbondanti nevicate e formazione di ghiaccio possono impedire al personale di arrivare al centro dati, � possibile che queste condizioni siano in grado di ostruire i condensatori dell'aria condizionata, causando un aumento delle temperature proprio quando il personale non � presente e quindi non � in grado di apportare le correzioni necessarie.
Forti raffiche di vento possono danneggiare le comunicazioni e l'alimentazione, in alcuni casi danneggiando anche le strutture dell'edificio.
Sono presenti altri tipi di condizioni atmosferiche in grado di causare diversi problemi, anche se questi non sono molto conosciuti. Per esempio, temperature troppo elevate possono causare problemi ai sistemi di raffreddamento, creando problemi di alimentazione a causa del sovraccarico della rete elettrica.
Anche se non � possibile influenzare le condizioni atmosferiche, sapere il modo con il quale queste condizioni agiscono sul normale funzionamento del vostro centro dati, pu� risultare utile per mantenere le vostre strutture sempre efficienti.
8.1.4. Errori umani
� stato detto che i computer sono perfetti. Il motivo di questa affermazione risiede nel fatto che se si effettua un controllo approfondito, ne risulter� che la causa principale sia un errore umano. In questa sezione, vengono esaminate le cause e gli impatti causati dai diversi errori umani.
8.1.4.1. Errori causati da un utente finale
Gli utenti di computer possono commettere errori gravi in grado di avere un serio impatto sull'intero sistema. Tuttavia, a causa del loro ambiente non privilegiato, i suddetti errori sono generalmente di natura locale. Poich� molti utenti interagiscono con un computer attraverso una o pi� applicazioni, � proprio in esse che si possono ricercare gli errori dovuti ad utenti finali.
8.1.4.1.1. Uso improprio delle applicazioni
Quando le applicazioni vengono usate in modo improprio, si possono verificare diversi problemi:
Sovrascrittura dei file
Utilizzo di dati non corretti come input per un'applicazione
File organizzati e chiamati in modo non corretto
Cancellazione accidentale di file
L'elenco potrebbe protrarsi ancora, ma quanto stilato � sufficiente per farsi un'idea. Poich� gli utenti non hanno i privilegi del super utente, gli errori che essi commettono sono limitati ai propri file. Per questo motivo, ecco riportato il miglior approccio:
Educate gli utenti ad un uso corretto delle proprie applicazioni e delle tecniche corrette di gestione dei file
Assicuratevi di eseguire periodicamente un backup dei file degli utenti e che il processo di ripristino sia semplice e veloce
Non vi � molto altro che possiate fare per limitare al massimo gli errori degli utenti.
8.1.4.2. Errori dovuti al personale addetto alle operazioni
Gli operatori hanno un rapporto pi� stretto con l'organizzazione rispetto agli utenti finali. Generalmente gli errori dei suddetti utenti si traducono in errori nelle applicazioni, al contrario gli operatori tendono ad eseguire compiti molti pi� ampi e complessi. Anche se la natura dei compiti viene decisa da altri, alcuni dei compiti possono includere l'utilizzo di utility del tipo system-level, dov'� maggiore la possibilit� di recare danni pi� complessi. Per questo motivo, il tipo di errore che un operatore pu� fare � quello di non seguire scrupolosamente le procedure.
8.1.4.2.1. Inosservanza delle procedure
Tutti gli operatori dovrebbero avere una serie di procedure documentate e disponibili per ogni azione da eseguire[3]. � possibile anche che le procedure non siano state aggiornate. Ecco elencati i vari motivi:
L'ambiente lavorativo ha subito un cambiamento e le procedure non sono mai state aggiornate. Per questo motivo le procedure memorizzate precedentemente dall'operatore sono invalide. A questo punto, anche se le procedure sono state aggiornate, (molto improbabile, dato che le stesse non sono state aggiornate prima), l'operatore non ne risulter� a conoscenza.
L'ambiente lavorativo � cambiato, ma non risulta alcuna presenza di procedure. Questo � un esempio ancora pi� critico di quello precedente.
Le procedure esistono e sono corrette, ma l'operatore non le segue (o non � in grado di seguirle).
A seconda della struttura di direzione della vostra organizzazione, non vi resta altro da fare che informare il vostro manager. In ogni modo, rendervi sempre disponibili per risolvere un problema risulta essere sempre il miglior approccio.
8.1.4.2.2. Errori durante l'esecuzione delle procedure
Anche se l'operatore segue le procedure corrette � sempre possibile commettere alcuni errori. Se si verificasse un errore, ci� potrebbe significare che l'operatore non ha prestato molta attenzione, (in questo caso � necessario il coinvolgimento del manager dell'operatore in questione).
Potrebbe anche trattarsi di un semplice errore. In questi casi, gli operatori migliori sono in gradi di accorgersi che il funzionamento non � corretto, chiedendo cos� assistenza al personale specializzato. Incoraggiate gli operatori con i quali lavorate a tale prassi, in modo tale che gli stessi contattino il personale addetto nel caso in cui essi siano in grado di accorgersi di un funzionamento non corretto. Anche se molti operatori sono in grado di risolvere la maggior parte dei problemi in modo indipendente, � da tenere in considerazione il fatto che questo compito non rientra nelle loro mansioni. Ricordate che se il problema si aggrava a causa di un intervento di un operatore, tale aggravarsi potrebbe influire in modo negativo sia sulla carriera dell'operatore stesso, e sia sulla vostra possibilit� di risolvere il problema in modo rapido.
8.1.4.3. Errori dell'amministratore del sistema
Diversamente dagli operatori, gli amministratori eseguono una gamma molto vasta di compiti utilizzando i computer dell'organizzazione. I loro compiti non si basano spesso su procedure documentate.
Per questo motivo, gli amministratori non fanno altro che aumentare il loro carico di lavoro. Durante l'adempimento dei compiti giornalieri di un amministratore, essi hanno un sufficiente accesso ai sistemi (senza indicare i loro privilegi di super utente), per creare inavvertitamente dei danni.
Gli amministratori generalmente commettono errori dovuti a configurazioni errate o di gestione
8.1.4.3.1. Errori nella configurazione
Gli amministratori devono sempre configurare tutti i diversi aspetti di un sistema. Questa configurazione potrebbe includere:
Email
Account utente
Rete
Applicazioni
L'elenco potrebbe andare avanti. Il compito vero e proprio della configurazione varia; alcuni compiti richiedono la modifica di un file di testo (utilizzando una delle tantissime sintassi dei file di configurazione disponibili), mentre altri file richiedono l'esecuzione di una utility di configurazione.
Il fatto che tutti questi compiti vengono gestiti in modo diverso non rappresenta una grossa aggiunta, infatti ogni compito riguardante la configurazione richiede conoscenze diverse. Per esempio, la conoscenza necessaria per configurare un mail transport agent � diversa da quella necessaria per configurare un nuovo collegamento di rete.
Considerando tutto questo, ci si potrebbe meravigliare del fatto che vengono commessi cos� pochi errori. In ogni modo, la configurazione �, e continuer� ad essere uno dei compiti pi� impegnativi di un amministratore. Ci si pu� domandare dunque se esista un metodo per ottenere un processo meno propenso ad errori.
8.1.4.3.1.1. Modifica del controllo
La minaccia comune per ogni modifica della configurazione � rappresentata dall'esistenza di una modifica. Il cambiamento potrebbe essere consistente, oppure piccolo, ma esso pur sempre rappresenta un cambiamento, e bisogna affrontarlo in modo perticolare.
Molte organizzazioni implementano un tipo di processo per il controllo delle modifiche. L'intento � quello di aiutare gli amministratori (e tutti i gruppi influenzati a tali modifiche), in modo da gestire il processo e di ridurre l'esposizione dell'organizzazione stessa a possibili errori.
Tale processo di controllo sulle modifiche generalmente divide il processo di modifica in quattro fasi. Ecco un esempio:
Ricerca preliminare
La ricerca preliminare cerca di definire in modo chiaro quanto segue:
La natura della modifica
Se tale modifica avviene, definire il suo impatto
Una posizione di ripiego se la modifica non ha avuto successo
Una valutazione dei possibili errori
Una ricerca preliminare potrebbe includere la prova della modifica durante un periodo previsto di downtime, oppure potrebbe prima implementare la modifica su di un ambiente di prova particolare eseguito su di un hardware di prova preposto.
Programmazione
Il cambiamento viene esaminato con una attenzione particolare sul meccanismo di implementazione. L'implementazione fatta include la sequenza ed il tempo necessario per la modifica (insieme con la sequenza ed il tempo necessario ad ogni fase per eseguire il back out della modifica nel caso in cui si verificasse un problema), ed assicurarsi che il tempo assegnato alla modifica sia sufficiente, e che non vi sia alcun conflitto con qualsiasi altra attivit� al livello di sistema.
Il prodotto di questo processo � rappresentato da un elenco di controllo di tutte le fasi da seguire da perte dell'amministratore durante l'esecuzione delle modifiche. Sono incluse con ogni fase le istruzioni da seguire nel caso in cui si verifichi un errore durante una delle fasi. Spesso viene incluso il tempo stimato per facilitare il controllo da parte di un amministratore.
Esecuzione
A questo punto l'esecuzione delle fasi necessarie per implementare il cambiamento dovrebbero essere semplici e chiare. Il suddetto cambiamento pu� essere o meno implementato, (a seconda se si fossero riscontrati dei problemi).
Controllo
Anche se la modifica non viene implementata, l'ambiente viene controllato in modo da assicurare il suo normale funzionamento.
Documentazione
Se la modifica � stata implementata, tutta la documentazione viene aggiornata in modo da riflettere la diversa configurazione.
Ovviamente, non tutte le modifiche della configurazione richiedono questo livello di dettagli. La creazione di un account utente non dovrebbe richiedere alcuna ricerca preliminare, e la programmazione consister� nel determinare se l'amministratore sia in possesso di tempo sufficiente per creare un account. L'esecuzione sar� allo stesso modo molto veloce, il controllo potrebbe consistere nell'assicurare che l'account � utilizzabile, e la documentazione consister� probabilmente nell'invio di una email al nuovo manager dell'utente.
Poich� le modifiche riguardanti la configurazione diventano sempre pi� complesse, sar� necessario l'adozione di un processo di controllo delle modifiche pi� formale.
8.1.4.3.2. Errori commessi durante la manutenzione
Questi tipi di errori possono essere molto insidiosi in quanto la pianificazione ed il controllo durante il mantenimento giornaliero sono ridotte al minimo.
Sfortunatamente gli amministratori sono testimoni ogni giorno di questo tipo di errore, anche se alcuni utenti affermano di non aver modificato niente — e che potrebbe essere colpa del computer. Generalmente l'utente che afferma questo, non ricorda quello che ha fatto in passato, e allo stesso modo quando un qualcosa di simile accade anche a voi, vi troverete nella stessa situazione.
Il segreto � quello di poter ricordare le modifiche eseguite durante il mantenimento, in modo tale da essere in grado di risolvere qualsiasi problema rapidamente. Un processo di controllo per le modifiche molto articolato non risulterebbe idoneo in quanto sar� difficile ricordarsi le centinaia di cose fatte durante il giorno. Che cosa si potrebbe fare quindi per ricordarsi tutto quello che un amministratore f� durante una giornata lavorativa?
La risposta � semplice — prendere nota di ogni cosa. Sia che venga eseguito utilizzando un taccuino, un PDA o come commenti nei file interessati, prendete sempre nota. Controllando ci� che avete fatto, avrete una maggiore possibilit� di risalire alla causa del problema.
8.1.4.4. Errori causati dal tecnico
Talvolta le persone che dovrebbero aiutarvi a risolvere il problema e a mantenere cos� il vostro sistema sempre efficiente, possono rappresentare la causa per un aggravarsi del problema stesso. Tutto questo non � premeditato; ma potrebbe essere frutto di alcune circostanze molto particolari. Lo stesso effetto lo si pu� avere al lavoro quando i programmatori risolvono un bug, creando a loro insaputa un altro bug.
8.1.4.4.1. Hardware riparato incorrettamente
In questo caso il tecnico potrebbe aver eseguito una diagnosi incorretta del problema e quindi aver eseguito una riparazione non necessaria, oppure si potrebbe verificare il caso di una corretta diagnosi, ma una riparazione non corretta. Potrebbe anch'essere probabile che l'unit� usata per la sostituzione era difettosa, o che la procedura di riparazione non � stata seguita in modo corretto.
Per questo motivo � importante sapere sempre tutto quello che il tecnico � in procinto di fare. Facendo questo potreste risalire alla causa di un problema in modo pi� rapido e semplice. In questo modo il tecnico potr� seguire la cronologia di un problema con una certa logica, invece di affrontare un problema come se fosse uno nuovo senza connessione con il precedente. In questo modo si evita la perdita di tempo che potrebbe essere utilizzato per risolvere il problema sbagliato.
8.1.4.4.2. Risoluzione di un problema creandone un altro
Talvolta anche se un problema � stato diagnosticato e risolto in modo corretto, � possibile che si verifichi un secondo problema. Il modulo della CPU � stato sostituito, ma il sacchetto anti-statico entro il quale risiedeva, ostruisce la ventola causando uno shutdown a causa di temperature elevate. Oppure l'unit� disco presente nel RAID array che presentava alcuni problemi� stata sostituita, poich� il connettore su di un'altra unit� � stato accidentalmente scollegato, l'array non � ancora in funzione.
Questi risultati sono causati dalla poca attenzione oppure da un errore. Questo purtroppo non ha importanza. Quello che dovete fare � di prestare sempre molta attenzione nel rivisionare ci� che il tecnico ha riparato, e assicurare che il sistema funzioni in modo corretto prima di congedarlo.
Generalmente viene considerato come tempo di risposta ideale, in quanto i tecnici spesso sono responsabili di parte di territorio che v� ben oltre quello del loro ufficio. Se vi trovate a due estremit� diverse di una zona assegnata ad un particolare tecnico, il tempo di risposta potrebbe essere pi� lungo.
Se gli operatori nella vostra organizzazione non sono in possesso delle suddette procedure, cercate di creare un documento lavorando insieme con loro, con il vostro manager e con i vostri utenti. Senza tali procedure un centro dati ha altissime probabilit� di incontare problemi seri durante le operazioni giornaliere.