22 de marzo de 2018

VSAN - ¿1 Disk Group?, ¿varios Disk Groups?, ¿cuantos Disk Groups?

Una de las consultas que mas me hacen los alumnos en el curso de VSAN Deploy& Manage es, ¿al momento del  diseño del cluster VSAN cuantos disk groups debo planificar?

El diseño de los disk groups afectan la disponibilidad, performance y capacidad del cluster, cuanto mas disk groups posea, los componentes se podrán distribuir en una mayor cantidad de almacenamiento, esto lógicamente disminuye el riesgo.

Pero vamos a una  explicación mas grafica para comprender mejor estos conceptos, al visualizar el dibujo, Uds. mismos podrán sacar sus propias conclusiones




En la figura observamos dos casos de VSAN, en ambos casos de 5 nodos, en ambos casos con 20 TBytes de espacio para almacenamiento (capacidad raw).

VSAN1, posee en cada servidor un solo disk group con 2 discos de 2TB para almacenamiento y 1 disco SSD que se usa como cache/buffer, un disco SSD tradicional nos entrega unos 36.000 IOPS, podemos concluir que cada nodo nos entrega 26.000 IOPS, comparemos con VSAN2 en la parte inferior de la figura, observamos que cada nodo posee 2 disk groups (DG), es verdad, los DG son mas pequeños (2 TB), los SSD también mas pequeños 200 GB vs 400 GB en el caso anterior, estos SSD entregan un poco menos de IOPS de los anteriores, podríamos decir unos 32.000 IOPS, Peeeero, ,en este caso cada nodo nos entrega 64.000 IOPS, mejor que el anterior no?

Además tenemos otros beneficios, cada DG (el rectángulo rojo) es un dominio de fallas, por lo que si falla un disco SSD, esta falla inutiliza el DG completo, en el caso de VSAN2, la falla implica perder 2 TB de espacio de almacenamiento mientras que en VSAN1 pierdo 4 TB. (Nota: Cuando uso la palabra "perder" no significa que se perderán datos, la perdida o no de datos dependerá de la política que aplique a mis maquinas virtuales, si la misma es PFFT=1 (Cantidad de fallas primarias a tolerar = 1) no se pierden datos ya que los mismos están replicados en otro nodo.))

En VSAN2 tengo mayor cantidad de STRIPES (RAID0) que en VSAN1

El diseño ideal seria también distribuir los discos en mas de un controlador de disco, de tal forma que la falla del mismo no me deje inutilizados todos los DGs.

Conclusion? cuando mas DG posea es mejor, un nodo puede tener hasta 5 DG, los cuales pueden tener hasta 7 dispositivos de almacenamiento de datos, cada DG debe tener mínimo un disco SSD que se usa como cache/buffer (VSAN hibrido) o cache (VSAN All flash)

Tiene desventajas usar mas DGs?, como siempre digo, los temas de TI son como la "frazada corta", si me tapo la cabeza me destapo los pies y viceversa, por lo que VSAN2, tiene la desventaja que necesito mas discos SSD, incrementar los DG me obliga a adquirir mas discos SSD lo cual puede encarecer la solución respecto al esquema de VSAN1, aunque día a día bajan los precios de los discos SSD, entonces...todo ok!

Saludos!








19 de marzo de 2018

Que discos SSD debemos usar para VSAN?


Como ustedes saben VSAN necesita discos SSD mínimamente para usar como cache aunque adicionalmente podría usar también estos discos para el nivel de almacenamiento de datos, la pregunta siguiente es ¿Como elijo un disco SSD para VSAN?

Antes de responder la pregunta repasaremos las características de un disco SSD, básicamente es una memoria, por ello su baja latencia respecto a un disco magnético, pero a diferencia de la memoria RAM, el disco SSD esta formado por transistores NAND que tienen un numero finito de ciclos de escrituras debido a que cada eliminación/escritura de datos degrada el transistor. Una vez que se cumple el ciclo de escrituras el mismo empieza a fallar, es un fallo gradual, las celdas empiezan a fallar y la performance se degrada.

Hare una breve descripción de las métricas que identifican cada tipo de disco SSD.  La calidad de un disco SSD esta representada por su "endurance" (dureza), como saben el disco SSD esta formado por memorias que en realidad son transistores que tienen una cantidad limitadas de "escrituras", es decir que cuando borre el contenido de un transistor para almacenar bits, esto se cuenta como una escritura.

Este grado de "endurance" se puede medir de diferentes formas como ser DWPD (DRIVE WRITES PER DAY), o sea la cantidad de veces que el disco SSD puede rescribirse completamente en un día durante el periodo de garantía antes de llegar a cumplir su vida útil, o sea si tengo un disco SSD 800GB con 5 años de garantía, un DWPD = 1 significa que puedo escribir 800GB cada día durante 5 años luego del cual puedo esperar que el disco falle.

Los DWPD pueden variar dependiendo del uso que le dará a los discos SSD, si el consumo es para almacenamiento enterprise obviamente necesito un disco con endurance mayor a si usare el disco para una notebook.

Otra forma de medir el endurance es mediante la métrica TBW "TERABYTES WRITEN" que es la cantidad de datos que podemos escribir/borrar antes de empezar a esperar fallos en el disco.

Ambas métricas lógicamente están relacionadas, si tengo un disco SSD con DWPD = 10 para un SSD de 800 GB podemos calcular los TBW de la siguiente manera

TBW (5 años) = Tamaño SSD x DWPD x 365 x 5 años

TBW = 0,8 TB x 10 x 365 x 5 = 14.600 TBW (5 años)

Con este dato de 14.600 TBW puedo acceder a la siguiente tabla donde podemos ver que uso podemos darle a este tipo de disco en VSAN:






Observamos que el disco cuyoTBW es de 14.600 VMWare lo clasifica como un disco clase D, es decir que puedo usar este disco para Cache o Capacidad en un VSAN All Flash.

La tabla muestra que tipo de disco corresponde para cada uso en VSAN

















Comments system

Disqus Shortname