Come definire le misure appropriate per un accordo sul livello di servizio?

Lavoro per una piccola casa di sviluppo che viene sempre più chiesto di mettere insieme SLA formali per i nostri prodotti in base a configurazioni particolari.

Da un punto di sviluppo di cose che sono comodo a questo, ma non c'è alcun punto nel mio dire che incontreremo obiettivi particolari da una prospettiva software se non sono realistici da una prospettiva hardware / piattaforma – i clienti si preoccupano solo di tutto disponibilità del sistema.

Cosa devo guardare da una prospettiva di piattaforma? Che tipo di metriche e livelli?

Inoltre, quali sono i gotchi (ad esempio da un punto di vista del software che non avrei mai commesso per un tempo di fissaggio – non ho idea se dovrò riscrivere tutto il prodotto per correggere qualcosa dicendo che possiamo risolvere il problema 5 giorni è potenzialmente imansible – cosa devo evitare di commettere da un punto di vista hardware / OS / piattaforma)?

  • Alla ricerca di una solida infrastruttura di reindirizzamento
  • Sisthemes di monitoraggio applicativi / host geograficamente distribuiti, fault tolerant e "intelligenti"
  • Qual è la differenza tra un SLA e un OLA?
  • Vittima di attacco DDOS - Quanto da ammettere?
  • T1 contro modem via cavo
  • Aspettative e manutenzione standard SLA per servizi standard
  • Dove è un buon posto per trovare un buon accordo SLA?
  • Come configurare le regole NAT quando si utilizza ASA IP-SLA quando si utilizza la syntax post-ASA-8.3 NAT?
  • 4 Solutions collect form web for “Come definire le misure appropriate per un accordo sul livello di servizio?”

    Ho una vasta esperienza in questo spazio; Faccio un sacco di lavoro per una coppia fortuna-5 aziende che operano i loro data center come un ISP ai vari reparti aziendali che necessitano di servizi di hosting e supporto.

    Di solito dispongono di due metriche denominate SLA (Service Level Agreement) e un OLA (accordo sul livello operativo).

    Le SLA sono soddisfatte attraverso il tipo di hardware in uso. Quando si parla di SLA usiamo livelli per descriverli. SLA-1 è zero in discesa, SLA-2 è qualcosa di simile fino ad un'ora di interruzioni, SLA-3 è 8 ore, ecc … I SLA sono soddisfatti con l'uso di apparecchiature ridondanti. In un'unica società usiamo un sacco di Cisco per creare elevata disponibilità (Cisco CSMs e GSS gear). Quando si parla di livelli SLA, si parla generalmente di HA (High Availability) e DR (Disaster Recovery). In situazioni in cui un'azienda disponga di più centri dati, il componente HA è di solito un attributo di data center mentre il DR è un attributo di tutti i data center; entrambi misurati in termini di RPO (Recovery Point Objective) e RTO (Time Recovery Time) per significare il livello SLA.

    Le OLA sono, in termini reali, quanto rapidamente qualcuno (un essere umano) risponde ad un evento che richiede interventi manuali / azioni correttive. Le OLA sono tipicamente misurate anche in termini di tempi di risposta; utilizzano gli stessi obiettivi RTO / RPO. Una società che consulta per uso 6 livelli per le loro metriche OLA. I primi 3 livelli qui sono un esempio di questo:

    OLA-1: RTO 0 <2 ore OLA-2: RTO> = 2 & <= 4 ore OLA-3: RTO> = 24 ore e <= 30 giorni se non un errore del centro dati, se dc fallimento> 30 giorni.

    Le cose che guidano le metriche OLA e SLA sono qualcosa che si chiama rating CIA. CIA = riservatezza, integrità e disponibilità. I dati per un'applicazione devono essere classificati dall'unità di business che paga per tale domanda. La CIA aiuterà a guidare quello che dovrebbe essere l'OLA e la SLA. Ogni parte del livello della CIA è data da un numero da 1 a 3. Così, per esempio, una valutazione CIA di 1-1-1 sarebbe altamente confidenziale, livello di integrità più elevato e livello di disponibilità elevata. Una valutazione CIA di 3-3-3 è il più basso ansible. Pertanto, una valutazione CIA di 3-3-3 tipicamente mappe ad un livello SLA e OLA di 6 in cui uno SLA-6 e OLA-6 è il più basso (tempo di risposta più lungo) garantito.

    Come si ottiene una valutazione CIA di solito significa capire quanti soldi un business perdere se i dati vengono rubati (riservatezza), compromessi (integrità) o quando i sisthemes sono in discesa (Disponibilità). Quindi un'azienda che sta per perdere $ 10M se i dati riservati vengono rubati possono avere un rating C di 1 o se la perdita di dati non è critica e costerebbe solo la società, ad esempio, $ 1.000, allora si può avere un rating C di 3 .

    Questo è in genere le grandi aziende che ho consultato per gestire tali cose.

    Sarei lento a impegnarsi in un momento di fissaggio per problemi hardware, come nel software. Non sai mai quando sanetworking in attesa di un fornitore di risolvere un bug critico in qualcosa. Per quanto riguarda i livelli di SLA, ho scoperto che tendono ad essere del tipo "che qualcuno lavorerà sul tuo problema entro le ore X". X se naturalmente dipende da quanto pagano, ma da qualche ora tra le 1 e le 8 ore sembrerebbe normale, nella mia esperienza.

    Se ti viene chiesto di fornire un SLA per il ripristino di problemi hardware in cui il software è installato, la risposta è "no". Potresti impegnarsi per un tempo di risposta, ma senza controllare l'intera collezione hardware / os / software non puoi impegnare a un tempo di risoluzione.

    Forse il tuo cliente ti dice in un modo scomodo che hanno davvero bisogno di un'offerta ospitata per il tuo prodotto? In questo modo possono evitare tutti i problemi interni che sono preoccupati e semplicemente tagliarti un controllo.

    Una cosa da considerare quando concludere un SLA è che SLA di per sé non significa assolutamente nulla, deve essere osservato insieme alle sanzioni in caso SLA non è soddisfatta.

    Ad esempio, il nostro ISP ci fornisce 100% SLA sulla networking, ma la quantità massima che possiamo get è la nostra bolletta mensile che è davvero bassa, come oggi la width di banda è poco costosa e in nessun modo vicino alla quantità di denaro che perdiamo quando la networking è in discesa .

    Inoltre, ciò che di solito è scritto nei contratti è il modo in cui qualcuno risponderà rapidamente al problema, non fino a che tempo sarà necessario per risolvere il problema. Quindi, se ti fanno impegnarsi a tempi brevi di risposta, basta mettere un intern durante lo spostamento notturno per scambiare i biglietti per te fino a quando ti sveglierai e ti va.

    Nella mia esperienza tutto questo business SLA praticamente significa molto, molto poco, se niente.

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.