È sicuro utilizzare i SSD di consumo MLC in un server?

Noi (e da noi intendiamo Jeff) stiamo esaminando la possibilità di utilizzare i dischi Consumer MLC SSD nel nostro centro dati di backup.

Vogliamo cercare di ridurre i costi e di utilizzare spazio in su – così i processri Intel X25-E sono praticamente fuori da circa 700 $ ciascuno e 64GB di capacità.

  • Miglior back-up di archiviazione per un pool di server web?
  • Quale spazio di archiviazione da utilizzare per un archivio di file web?
  • soluzione per memorizzare 10TB / mese
  • Le unità SAS vale veramente il loro denaro e sono molto meglio di oggi SATA più recenti?
  • 19 "raggruppabili montabili
  • Memorizzazione file on-line?
  • Ciò che stiamo pensando di fare è quello di acquistare alcuni dei SSD inferiori che offrono maggiori capacità a un prezzo più basso. Il mio capo non pensa che spendere circa 5k per i dischi nei server che esauriscono il centro dati di backup vale l'investimento.

    Queste unità verrebbero utilizzate in un arrays RAID da 6 unità su un Lenovo RD120. Il controller RAID è un Adaptec 8k (Lenovo rebranded).

    Quanto è pericoloso un approccio e cosa si può fare per mitigare questi pericoli?

    8 Solutions collect form web for “È sicuro utilizzare i SSD di consumo MLC in un server?”

    Alcuni pensieri;

    • Gli SSD hanno la memory "overcommit". Questa è la memory utilizzata al posto delle cellule 'danneggiate' scrivendo. Gli SSD a bassa fine possono avere solo il 7% dello spazio di overcommit; mid-range circa il 28%; e dischi aziendali fino al 400%. Considerate questo fattore.
    • Quanto ti scriverai al giorno? Anche i SSD di media gamma, come quelli basati su 1200 chip di Sandforce, raramente apprezzano più di circa 35GB di scritture al giorno prima di tagliare seriamente la memory overcommitted.
    • Di solito, il primo giorno di un nuovo SSD è pieno di scrittura, sia esso OS o dati. Se si ha significativamente più di> 35GB di scritture il primo giorno, considera di copiarlo in batch per dare al SSD un '' tempo di sorting '' tra i batch.
    • Senza supporto TRIM, le performance di scrittura random possono scendere fino al 75% entro settimane se c'è un sacco di scrittura durante quel periodo – se è ansible, utilizzare un sistema operativo che supporti TRIM
    • I processi di raccolta dei rifiuti interni che i moderni SSD eseguono sono molto specifici in periodi silenziosi e si ferma all'attività. Questo non è un problema per un PC desktop in cui il disco potrebbe essere silenzioso per il 60% del suo normale ciclo di lavoro di 8 ore, ma si esegue un servizio 24 ore … quando questo process avrà la possibilità di eseguire?
    • Di solito è sepolto in profondità nelle specifiche, ma come i dischi 'normali' di cheapo, gli SSD economici sono anche previsti solo per un ciclo di servizio di circa il 30%. Le utilizzerai per quasi il 100% del tempo – questo influenzerà il tasso di MTBF.
    • Mentre gli SSD non subiscono gli stessi problemi meccanici che i dischi normali fanno, hanno errori singoli e multipli – quindi considerate fortemente RAIDing anche se l'istinto non è. Ovviamente avrà un impatto su tutte le belle velocità di scrittura casuali che avete appena comprato ma comunque lo considerate.
    • È ancora SATA non SAS, quindi la gestione della coda non sarà così buona in un ambiente server, ma poi la spinta aggiuntiva di performance sarà abbastanza drammatica.

    Buona fortuna – non basta "friggerli" con le scritture 🙂

    Ho trovato questo collegamento, che ha un'analisi interessante e approfondita di MLC vs SLC SSD nei server

    A mio parere, utilizzando un arrays SSD flash MLC per un'applicazione aziendale, senza utilizzare alless gli effetti mitiganti di una tecnologia come l'MFT di Easyco, è come saltare fuori da un aereo senza un paracadute.

    Si noti che alcuni produttori di SSD MLC sostengono che i loro drive sono "enterprisey" sufficienti a sopravvivere alle scritture:

    SandForce intende essere la prima azienda con un controller che support chip multi-livello di flash per le unità a stato solido utilizzato nei server. Utilizzando chip MLC, la SF-1500 apre la strada a ridurre i costi ei dispositivi di maggiore densità che i produttori di server vogliono. Ad oggi i flash drive per i server hanno utilizzato chip singolo a livello di chip flash. Questo perché la resistenza e l'affidabilità per i chip MLC non sono in genere conformi ai requisiti dei server.

    C'è un'ulteriore analisi di queste rivendicazioni presso AnandTech .

    Inoltre, ora Intel è andato al record dicendo che SLC potrebbe essere overkill nei server 90% del tempo :

    "Credevamo che fosse richiesto SLC [cella a singolo livello], ma ciò che abbiamo trovato attraverso studi con Microsoft e persino Seagate è che queste applicazioni ad alto costo-calcolo non scrivono tanto quanto pensavano", ha detto Winslow. "Il novanta per cento delle applicazioni del data center può utilizzare questa unità MLC [multilevel cell]".

    .. nell'ultimo anno o giù di lì, i venditori hanno riconosciuto che, usando software speciale nei controller di azionamento, sono in grado di aumentare l'affidabilità e la resilienza dei loro SSD MLC di class consumer fino al punto in cui le imprese li hanno abbracciati server di data center ad alte performance e arrays di archiviazione. I produttori SSD hanno iniziato a utilizzare il termine flash eMLC (Enterprise MLC) NAND per descrivere tali SSD.

    "Da una prospettiva di volume, vediamo che ci sono ambienti di calcolo molto elevati per la scrittura ad alta intensità e che possono ancora avere bisogno di SLC, ma è anche il primo 10% dei requisiti dei data center aziendali", ha dichiarato Winslow.

    Intel sta alimentando il 10% superiore del mercato dei data center aziendali attraverso la joint venture con Hitachi Global Storage Technologies. Hitachi sta producendo la SSD400S di SSD Serial Attached SCSI, che ha 6Gbit / sec. il throughput – due volte quello dei suoi SSD SATA basati su MLC.

    Intel, anche per i propri drive SSD orientati al server, ha migrato da SLC a MLC con uno spazio "overprovisioning" molto alto con la nuova serie Intel SSD 710 . Queste unità distribuiscono fino al 20% dell'archiviazione globale per la ridondanza interna:

    La prestazione non è una priorità assoluta per la SSD 710. Invece, Intel sta cercando di fornire una resistenza a livello SLC a un prezzo ragionevole utilizzando un eMLC HET NAND più economico. Il SSD 710 support anche il sovraccarico configurabile dall'utente (20%), che aumenta in modo significativo la durata dell'azionamento. La garanzia SSD 710 è di 3 anni o fino a quando un indicatore di usura raggiunge un certo livello, a seconda di quale sia il primo. Questa è la prima volta che abbiamo visto la garanzia SSD limitata in questo modo.

    Sempre basi queste cose su fatti piuttosto che supporre. In questo caso, la raccolta dei fatti è facile: registrare i profili IOPS di lettura / scrittura a lungo termine dei tuoi sisthemes di produzione e quindi capire cosa si può vivere in uno scenario di ripristino di emergenza. Dovresti usare qualcosa come il 99 percentile come misura. Non utilizzare le medie quando misuri la cPacità IOPS – i picchi sono tutto ciò che conta! Quindi è necessario acquistare la capacità richiesta e IOPS come necessario per il tuo sito DR. Gli SSD possono essere il modo migliore per farlo, o forse no.

    Così, ad esempio, se le applicazioni di produzione richiedono 7500 IOPS al 99 ° percentile, puoi decidere di poter vivere con 5000 IOPS in un disastro. Ma questo è alless 25 dischi 15K richiesti proprio sul tuo sito DR, quindi SSD potrebbe essere una scelta migliore se le vostre esigenze di capacità sono piccole (suoni come se fossero). Ma se si misura solo che fai 400 IOPS nella produzione, basta acquistare 6 unità SATA, risparmiare una moneta e utilizzare lo spazio aggiuntivo per memorizzare altre istantanee di backup sul sito DR. È inoltre ansible separare le letture e le scritture nella raccolta dati per calcolare solo quanto tempo gli SSD non aziendali dureranno per il tuo carico di lavoro in base alle loro specifiche.

    Ricorda inoltre che i sisthemes DR potrebbero avere una memory inferiore rispetto alla produzione, il che significa che sono necessari ulteriori IOPS (più swap e less cache del filesystem).

    Anche se il MLS SSD durò solo un anno, in un anno i rimontaggi saranno molto più economici. Quindi puoi affrontare la necessità di sostituire il SSD di MLS quando sono fuori?

    Se mettiamo da parte il problema della quantità di scrittura (o dimostriamo che gli SSD a livello di consumo possono gestirlo), penso che gli SSD siano una buona cosa da aggiungere a ambienti a livello aziendale. Probabilmente utilizzerai gli SSD in un arrays RAID. RAID5 o RAID6. E il problema con questi è che dopo un singolo guasto dell'unità, l'arrays diventa sempre più vulnerabile all'insuccesso. E il tempo per ricostruirlo dipende fortemente dal volume della matrix. Un arrays di TB può richiedere giorni per ribuild, pur essendo costantemente accessibili. Nel caso di SSD, le matrici RAID saranno a) inevitabilmente più piccole; b) la ricostruzione del tempo diminuisce drasticamente.

    Un whitepaper sulle differenze tra SLC e MLC da SuperTalent mette la resistenza di MLC e una decima della resistenza di un SSLC SSL ma le probabilità sono che le SSD di MLS supereranno l'hardware che li metterai comunque. Non sono sicuro di quanto siano affidabili quelle statistiche / fatti da SuperTalent però.

    Supponendo che si ottiene un simile livello di supporto dal fornitore del SSD MLC poi il punto di prezzo più basso rende degno un colpo.

    Dovresti semplicemente calcolare la quantità di scritture giornaliere che hai con la tua configuration attuale e confrontarla con ciò che il produttore garantisce le proprie unità SSD in grado di sostenere. Intel sembra essere il più avanzato di questo – ad esempio, dare un'occhiata ai loro mainstream datasheet di unità SSD: http://www.intel.com/design/flash/nand/mainstream/technicaldocuments.htm

    La sezione 3.5 (3.5.4, specificamente) del documento di specifiche dice che è garantito che l'unità dura alless 5 anni con 20 GB di scritture al giorno. Suppongo che questo sia calcolato quando si utilizza l'intera capacità dell'unità e non provvede a creare spazio libero per scrivere.

    Inoltre interessante è il foglio di dati riguardante l'utilizzo di SSD mainstream in un ambiente aziendale.

    Ho installato un paio di 32gb SLC drive un paio di anni fa come un buffer per qualche applicazione orrendamente mal progettata che stavamo utilizzando.

    L'applicazione è stata di 90% piccole scrive (<4k) ed era in esecuzione costante (24/7) a 14k w / s una volta sulle unità SSD. Sono stati configurati RAID 1, tutto era rosa, la latenza era bassa!

    Tuttavia, circa un mese in poi e la prima unità compressa, letteralmente entro 3 ore, anche la seconda unità era morta. RAID 1 non è un buon programma dopo tutto 🙂

    Sarei d'accordo con gli altri poster su una sorta di RAID 6 se non altro diffonde quelli che scrive in più unità.

    Ora tenere presente questo è stato un paio di anni fa e queste cose sono molto più affidabili ora e non si può avere un profilo simile I / O.

    L'applicazione è stata rielaborata, tuttavia come un intervallo di arresto che può o non può aiutarti, abbiamo creato un grande disco di ram, creato alcuni script per ribuild / backup il disco ram e prendere il colpo di un'ora o così perdita sui dati /i tempi di recupero.

    Ancora una volta, il ciclo di vita dei tuoi dati potrebbe essere diverso.

    Suggerimenti per Linux e Windows Server, quali Ubuntu, Centos, Apache, Nginx, Debian e argomenti di rete.