POR: EDUARDO8088
PRUEBAS CON USB 3.0 - COMPARACIÓN ENTRE TARJETAS LACIE Y ASUS
Hicimos unas pruebas con USB 3.0 y como siempre, probamos para saber los números reales -no confiamos en la especificaciones de lo fabricantes-. Vamos a comparar dos modelos diferentes de tarejtas USB 3.0 usando un disco duro externo RAID para poder tener un disco muy rápido que no sea un factor limitante en las pruebas. El programa para las pruebas es Crystal Disk Mark 3.0.0 x64 (http://crystalmark.info/?lang=en). Hice 29 réplicas de una prueba de 2 GB para cada tarjeta y las comparé usando la prueba estadística no paramétrica de Mann-Whitney (α 0.05000, N=29) y gráficas de los datos. El montaje de la prueba es: Procesador: Dual Xeon E5420, 2,5 Ghz, 12 MB cache, 1333 FSB RAM: 8 GB RAM DDR2 ECC 667MHz Disco de sistema: Seagate ES.2 ST3500320NS, 7200 rpm, 500 GB Video: NVidia GeForce GT430, 1GB Board: De servidor, socket dual, chipset Intel 5100, 6 puertos SATA2 (3 Gbps) via controlador ICH9R SB Fuente: Real 500W alta eficiencia HEC Sistema operativo: Windows 7 Ultimate 64bit, ingles Disco de prueba: Disco externo LaCie 2big USB 3.0, RAID0 2 discos duros, 2 TB total. Tarjeta de prueba 1: Adaptador de 2 puesrtos LaCie PCIe x4, USB 3.0. NEC µPD720200 chip Tarjeta de prueba 2: Adaptador de 2 puertos Asus U3S6 MG990T-C PCI-E x4, USB 3.0 + SATA 6Gb/s 2 puertos RESULTADOS: Figura 1. Velocidad de transferencia de lectura de dos tarjetas USB 3.0. 29 réplicas de 2000 MB c/u. Barras de error son error estándar de la media. Figura 2. Velocidad de transferencia de escritura de dos tarjetas USB 3.0. 29 réplicas de 2000 MB c/u. Barras de error son error estándar de la media. Para la velocidad de lectura, hay diferencias significativas (p-valor=0.00001, U=137, rechaza que las dos muestras provienen de la misma distribución). Sabiendo que ambas tarjetas son significativamente diferentes, una simple inspección visual de la figura 1 revela que la tarjeta LaCie tiene más desempeño que la asus: el área bajo la línea de la tarjeta LaCie (línea azul) es mayor que la de la Asus (línea Roja). CONCLUSIÓN La tarjeta LaCie se desempeña mejor que la tarjeta Asus. Sospecho que puede ser debido en parte a que la tarjeta Asus también tiene un controlador SATA 6 Gb/s, lo que agrega pasos adicionales internos para el manejo del ancho de banda. Por cierto, el promedio de la tasa de transferencia de lectura de la tarjeta LaCie es 226.004 MB/s y el de escritura es 154.186 MB/s. A pesar de que estos números sólo son válidos para el principio del disco, son muy similares a la transferencia de un disco eSATA, haciendo USB 3.0 un buen substituto para eSATA con la ventaja de que son más baratos y puedes conectarlos en un puerto USB 2.0 en caso de ser necesrio. Tendremos que hacer una prueba para confirmar esta apreciación. Saludos, Eduardo Abril 11, 2011
POR: EDUARDO8088
DESEMPEÑO CUDA SETI@HOME
Hola, Esta es una comparación muy simple del desempeño entre dos de nuestros computadores: El supercomputador con 4 tarjetas Nvidia Tesla (http://www.8088.net/blog/index.php/2010/11/01/especificaciones-del-supercomputador-multi-gpu-tesla/) y uno con 2 Quad Xeon 5420 + 1 Nvidia 8500GT SETI@Home es un proyecto de computación distribuida que busca inteligencia extraterrestre analizando señales grabadas en el radio telescopio de Arecibo, distribuyendo ese análisis en computadores caseros a través de Internet. Más información en: http://setiathome.berkeley.edu/ Figura 1. Créditos obtenidos durante 15 días por un computador con 2 Xeon Quad 5420 + 1 Nvidia 8500GT Figura 2. Créditos obtenidos durante 15 días por un computador con 2 Xeon 5620 + 4 Nvidia Tesla C1060 SETI@Home da puntos (créditos) por cada tarea de procesamiento completada y validada. Las gráficas de arriba muestran cuantos créditos fueron asignados a cada máquina durante dos semanas. Entre el 20 de ago. y el 6 de sep. SETI tenía problemas en sus servidores y la descarga de tareas era lenta, aún así, la máquina Tesla acumuló más del doble de créditos que el Quad Xeon. Después del 6 de sep, ambas máquinas descargaron tareas normalmente y la diferencia fue enorme, la Tesla procesó mucho más que el Quad Xeon. Desafortunadamente la prueba tuvo que ser detenida después de 15 días debido al la cuenta de electricidad de los 850W que consume el computador Tesla cuando está casi al 100%. Saludos, Eduardo Abril 08, 2011
POR: EDUARDO8088
COMPARACIÓN DE IOps: DRIVE DE ESTADO SÓLIDO (SSD) VS. 15000 VS. 7200 VS. 5900 VS. 5600 rpm
Hola, En esta prueba vamos a comparar las operaciones de entrada/salida por segundo (IOps) entre varios discos duros que teníamos a la mano: tres discos SAS de 15000 rpm, uno SATA de 7200 rpm, uno SATA de 5900 rpm, uno SATA de 5600 rpm y un drive de estado sóldio SATA empresarial. Para ir a la gráfica de comparación directamente haz clic aquí. Comparar discos duros no sólo es importante en cuanto a los MB/s que pueden transferir, también es importante saber cuantas operaciones por segundo (IOps) son capces de realizar, es decir, cuantas veces por segundo pueden escribir o leer datos. Este parámetro es muy importante para equipos que reciben muchas solicitudes en un momento dado, por ejemplo, para computadores sobre los que funcionan bases de datos, pues estos tienen que leer y escribir muchos paquetes pequeños de información en un momento dado. Para darles un ejemplo más cotidiano de lo importante que son las IOps, piensen en que van a copiar una película AVI de 2 GB y que luego van a copiar una carpeta de fotos que ocupa 2 GB tambien. La película copiará a la velocidad máxima del disco duro, por decir algo, 100 MB/s, y tardará 20.5 segundos en copiar; mientras que las fotos copiaran a 12 MB/s y tardarán casi 3 minutos en copiar. Pueden intentarlo en sus computadores y se darán cuenta de la gran diferencia que hay entre copiar una y otra cosa. ¿Cuál es la diferencia en el ejemplo anterior si ambos ocupan el mismo tamaño? En términos muy sencillos (y gruesos), es que para copiar la película la cabeza del disco duro sólo tiene que leer una vez la posición del archivo y luego copiar su contenido, se realizan dos operaciones. Para copiar las fotos tiene que leer la posición de cada una y luego copiar su contenido; si cada foto es de 1,5 MB, en 2 Gb habrían más de 1500 fotos, entonces serían más de 3000 operaciones. En cada operación la cabeza tarda un cierto tiempo en completar la tarea y eso se ve reflejado en que la velocidad de lectura y escritura disminuyan. Una característica que determina cuantas IOps puede realizar un disco duro es la velocidad a la que gira. Un disco de computador de escritorio para el hogar gira a 7200 rpm, 5400 rpm o 5600 rpm, mientras que un disco duro empresarial gira a 15000 o 10000 rpm. Girar más rápido hace que debajo de la cabeza del disco pasen más sectores en menos tiempo, por eso pueden hacer mas IOps, esto también los hace más costosos y además tienen una interfaz diferente, llama SAS (Serial Attached SCSI), el estándar actual para discos de servidor. Con el desarrollo de chips de memoria no volátil (que no se borra al quitar la corriente eléctrica) más rápidos, de más capacidad y más confiables, se empezaron a ofrecer en el mercado dispositivos de almacenamiento con las interfaces de los discos duros, pero en vez de discos había chips de memoria. Llamados en inglés Solid State Drive, hace un par de años tenían un precio muy alto, de varios miles de dólares, pero con velocidades que superaban a sus contrapartes mecánicas, lo que hizo que las ventas crecieran y los precios bajaran con el tiempo. En un principio había problemas con la vida útil de los sectores de los chips de memoria, que tienen un número limitado de escrituras/lecturas, pero hoy en día los controladores internos tienen algoritmos para nivelar el uso de cada sector de modo que el tiempo medio antes de una falla (MTBF) es tanto o más que un disco duro, además su precio ha bajado considerablemente (al rango de cientos de dólares) y las velocidades han aumentado. Si bien, en cuanto a MB/s los SSD superan por más del doble a los discos duros (próximamente publicaremos pruebas de eso también), en cuanto a IOps los resultados son aán más sorprendentes. Para tener números concretos acerca de qué tantas IOps puede realizar un SSD respecto a un disco duro, realizamos una prueba con IOmeter usando un perfil de configuración tomado del un post del foro Commuties de VMWare(http://communities.vmware.com/thread/73745), para que fuera comparable con otros resultados. CONDICIONES DE LA PRUEBA La prueba simula condiciones de la vida real de acceso a una base de datos, con una transferencia por petición de 8 kB, 35% de operaciones secuenciales y 65% de aleatorias; 35% de escrituras y 65% de lecturas y 64 comandos en cola (outstanding IOps). La prueba corre por 5 minutos y se repitió 6 veces por disco, se sacó un promedio y se calculó el error estándar de la media para hacer la gráfica. Adicionalmente la prueba se realizó sobre el último 10% de los discos (y del SSD), pues se trata del área más lenta, lo que la convierte en el factor limitante del desempeño y un dato representativo (y más real) del comportamiento de los discos en una condición crítica, esto es, con muy poco espacio libre. Los discos a comparar son: 1. Seagate Cheetah 15k.5 ST373455SS, SAS 3Gb/s, 15000 rpm, 16 MB cache, 74 GB. 2. Fujitsu MAX3147RC, SAS 3Gb/s, 15000 rpm, 16 MB cache, 146 GB. 3. Seagate Cheetah 10T ST3300555SS, SAS 3Gb/s, 15000 rpm, 16 MB cache, 300 GB. 4. Seagate Barracuda ES.2 ST31000640SS, SATA 3 Gb/s, 7200 rpm, 16 MB cache, 1TB. 5. Seagate Barracuda ES.2 ST3500320NS, SATA 3Gb/s, 7200 rpm, 32MB cache, 500GB. 6. Seagate Barracuda 7200.12 ST31000528AS, SATA 3Gb/s, 7200 rpm, 32MB cache, 1TB. 7. Seagate Barracuda LP ST32000542AS, SATA 3Gb/s, 5900 rpm, 32MB cache, 2TB. 8. Hitachi Deskstar 5K1000 HDS5C1010CLA382, SATA 3 Gb/s, 5600 rpm, 8 MB cache, 1 TB. 9. SuperTalent Technology TeraDrive CT FTM12CT25H , SATA 3Gb/s, SSD, 120G. Los tres primeros son discos empresariales SAS, el cuarto y el quinto son discos SATA empresariales, el sexto es un disco SATA para computador de escritorio de alto desempeño, el séptimo y el octavo son para computador casero y el último es un drive de estado sólido empresarial. El sistema donde se desarrolló la prueba tiene las siguientes especificaciones: -2 x Procesador Intel® Xeon E5620 ; 2,40 GHz, 12 MB cache, 1333FSB, Tecnología Intel® HyperThreading, Tecnología Intel® Turbo Boost. -24 GB RAM DDR3 1333MHz ECC, (4GB x 6), configuración en triple canal. -Drive de de estado sólido (SSD, Solid State Drive) de 80 GB Intel X25M SSDSA2M080G2GC para el sistema operativo. -Tarjeta controladora SAS/SATA 6Gb/s, PCI-E 2.0 x8, HighPoint RocketRaid 2720 de 8 puertos. -Tarjeta de video NVidia GeForce 7300 GT. -Tarjeta madre con Chipset dual Intel® 5520, 36 líneas PCI-E 2.0 cada uno (72 total), 6.40 GT/s cada uno. -2 x Puertos de red Gigabit Intel® 82574L. -Chasis 4U torre/montable en armario, fuente de poder de alta eficiencia redundante de 1400W. -Windows 7 Ultimate de 64bit en inglés. Bueno, ahora sí, dejemos que la gráfica hable por si misma: Gráfica de comparación de media de IOps La diferencia entre los discos duros y el SSD es tan grande que tuve que agregar los valores sobre las barras para que se pudieran apreciar mejor las diferencias con los discos. Si bien no se trata de una prueba estadística rigurosa, es suficiente para ilustrar que las diferencias son abismales. El SSD puede hacer entre 18.5 a 21.6 veces más IOps que un disco de 15000 rpm SAS, pero ambos tienen costos similares para este caso. Nada más imagínense varios de estos SSD en RAID. El valor de IOps tan diferente entre discos duros y SSD se debe a que el SSD tiene un controlador que necesita muy poco tiempo para ubicar dirección de memoria donde está ubicada la información en el chip, entonces, mientras la cabeza del disco duro hace una operación, esto es flotar sobre el disco y ubicarse en la posición correcta, el controlador del SSD hace 20 operaciones, simplemente ubica en forma electrónica una fila y una columna en el chip de memoria, una operación mucho más rápida. Esta tecnología está en desarrollo muy activo, por lo que podemos esperar un aumento de desempeño de los SSD en los próximos años, especialmente porque el ancho de banda de la interfaz también va en aumento. Ya tenemos SAS/SATA de 6 Gb/s y el de 9 Gb/s está por venir; un ancho de banda muy amplio para crecer. También hay que esperar qué otras respuestas producen los fabricantes de discos duros. Ya empezaron con los discos duros híbridos, pero con esas diferencias tan grandes y la caída de precios de los SSD, es difícil pensar en que los discos duros van a mantenerse por mucho tiempo liderando el mercado. Como dato adicional, varias de nuestras estaciones de trabajo nuevas para alquilar están saliendo con el SSD de esta prueba para el sistema operativo, así los tiempos de respuesta de Windows y de los programas se disminuyen notablemente. También tenemos un cliente con un servidor con una base de datos montada sobre tres arreglos de SSD en espejo (3 RAID1) funcionando con éxito y batiendo al sistema con discos SAS de 15k rpm que tenían. Estén pendientes de más pruebas. Saludos, Eduardo Diciembre14, 2010
ESPECIFICACIONES DEL SUPERCOMPUTADOR MULTI GPU TESLA
Hola, Quiero mostrarles a todos una foto y las especificaciones de nuestro supercomputador de prueba CUDA, multi GPU TESLA (clic para agrandar): Las cuatro tarjetas prominentes son cuatro procesadores computacionales GPU NVidia TESLA C1060, que pueden ser consideradas tarjetas de video ciegas con mucha RAM para procesar datos, no para video juegos; también pueden ver dos disipadores de calor bajo los cuales hay en cada uno un procesador Intel® Xeon E5620 (2,40 GHz, 12 MB cache, 1333FSB), 4 núcleos, 8 hilos c/u, 16 hilos en total; por último, hay cuatro ventiladores del sistema grandes intercambiables en caliente; todo esto en un chasis de torre 4U montable en armario. Esta máquina fue la usada en nuestro post anterior: CUDA Tests – GPU render – Bunkspeed Shot Las especificacones (casi) completas son: 4 x Tarjeta de procesamiento NVidia Tesla C1060, 4 GDDR3 RAM, 240 núcleos c/u (960 núcleos en total). 2 x Procesador Intel® Xeon E5620 ; 2,40 GHz, 12 MB cache, 1333FSB, simultaneous multithreading (Tecnología Intel® HyperThreading), Tecnología Intel® Turbo Boost. 24 GB RAM DDR3 1333MHz ECC, (4GB x 6), configuración en triple canal, hasta 192 GB de RAM. “Disco” duro de estado sólido (SSD, Solid State Drive) de 100 GB SSD OCZ Vertex Limited Edition, hasta 270 MB/s de lectura, 250 MB/s de escritura (235 MB/s sostenidos de escritura). Tarjeta de video NVidia Quadro FX 580, 512 MB GDDR3 RAM. Tarjeta madre con Chipset dual Intel® 5520, 36 líneas PCI-E 2.0 cada uno (72 total), 6.40 GT/s cada uno. 2 x Puertos de red Gigabit Intel® 82574L Chasis 4U torre/montable en armario, 8 bahías removibles de DD de 3,5″, 3 bahías de 5.25″, 1 bahía de 3.5″ , 4 ventiladores internos intercambiables en caliente, 2 ventiladores traseros intercambiables en caliente, fuente de poder de alta eficiencia redundante de 1400W. Saludos, Eduardo Noviembre 01, 2010
POR: EDUARDO8088
PRUEBAS DE CUDA - RENDER POR GPU TESLA - BUNKSPEED SHOT
Hola, En los últimos dos meses empezamos a probar una tecnología basada en procesamiento por GPU. Su nombre es CUDA y es desarrollada por NVidia. NVida tiene tarjetas dedicadas únicamente a procesamiento por GPU, tarjetas TESLA, así que decidimos comprar un computador con cuatro de ellas para ver qué tal funciona. El computador lo llamamos “Tesla” (no muy original, pero práctico) y esta es una de las primeras pruebas . La configuración es la siguiente: 4 tarjetas GPU NVidia Tesla C1060 4GB, 2 procesadores Xeon E5620 (16 hilos de procesamiento en total), 24 GB DDR3 ECC RAM Tripple channel, Drive de estado sólido de 100 GB OCZ Vertex SSD,Fuente de poder redundante de 1400W, chasis de torre, Windows 7 Ultimate 64 bit. Puesto que nosotros nos dedicamos principalmente a la industria del 3D y la posproducción de video, decidimos hacer varias pruebas usando algunas aplicaciones de render por GPU disponibles en el mercado. Empezamos por Bunkspeed Shot, una aplicación independiente basada en iray, el motor de render por GPU de Mental Images, mejor conocido por su motor de render Mentalray. En la prueba jugamos un poco con un modelo de prueba del programa, manipulándolo en el visor y luego cambiando los materiales en tiempo real para ver cómo se comportaba. Por último cambiamos la resolución para ajuste a la panalla (1280 x 768) tratando de exigirle más a las tarjetas Tesla. El desempeño parce muy bueno, sin embargo, el software no usa toda la capacidad disponible tanto de las CPU como de las GPU. Estamos mirando cómo podemos hacer que las tarjetas se acerquen al 100%, ¡así que estén pendientes a ver qué sucede! Les dejo el video para que juzguen por ustedes mismos cómo salió la prueba (¡no olviden cambiar la calidad a 720p HD para ver todos los detalles de la prueba!) Saludos, Eduardo.
Noviembre 01, 2010
POR: EDUARDO8088
BIENVENIDOS AL BLOG DE 8088.net
Hola, En este blog vamos a poner todas las pruebas que realizemos en nuestras investigaciones con el hardware y el software de alto desempeño que manejamos en nuestra empresa. La idea es mostrar cómo se comportan nuestras máquinas en el mundo real, los números detrás de las especificaciones. Pueden hacer las preguntas generales en este post. ¡Estén pendientes! Saludos, Eduardo Noviembre 01, 2010
POR: EDUARDO8088 PRUEBAS CON USB 3.0 - COMPARACIÓN ENTRE TARJETAS LACIE Y ASUS
Hicimos unas pruebas con USB 3.0 y como siempre, probamos para saber los números reales -no confiamos en la especificaciones de lo fabricantes-. Vamos a comparar dos modelos diferentes de tarejtas USB 3.0 usando un disco duro externo RAID para poder tener un disco muy rápido que no sea un factor limitante en las pruebas. El programa para las pruebas es Crystal Disk Mark 3.0.0 x64 (http://crystalmark.info/?lang=en). Hice 29 réplicas de una prueba de 2 GB para cada tarjeta y las comparé usando la prueba estadística no paramétrica de Mann-Whitney (α 0.05000, N=29) y gráficas de los datos. El montaje de la prueba es: Procesador: Dual Xeon E5420, 2,5 Ghz, 12 MB cache, 1333 FSB RAM: 8 GB RAM DDR2 ECC 667MHz Disco de sistema: Seagate ES.2 ST3500320NS, 7200 rpm, 500 GB Video: NVidia GeForce GT430, 1GB Board: De servidor, socket dual, chipset Intel 5100, 6 puertos SATA2 (3 Gbps) via controlador ICH9R SB Fuente: Real 500W alta eficiencia HEC Sistema operativo: Windows 7 Ultimate 64bit, ingles Disco de prueba: Disco externo LaCie 2big USB 3.0, RAID0 2 discos duros, 2 TB total. Tarjeta de prueba 1: Adaptador de 2 puesrtos LaCie PCIe x4, USB 3.0. NEC µPD720200 chip Tarjeta de prueba 2: Adaptador de 2 puertos Asus U3S6 MG990T-C PCI-E x4, USB 3.0 + SATA 6Gb/s 2 puertos RESULTADOS: Figura 1. Velocidad de transferencia de lectura de dos tarjetas USB 3.0. 29 réplicas de 2000 MB c/u. Barras de error son error estándar de la media. Figura 2. Velocidad de transferencia de escritura de dos tarjetas USB 3.0. 29 réplicas de 2000 MB c/u. Barras de error son error estándar de la media. Para la velocidad de lectura, hay diferencias significativas (p-valor=0.00001, U=137, rechaza que las dos muestras provienen de la misma distribución). Sabiendo que ambas tarjetas son significativamente diferentes, una simple inspección visual de la figura 1 revela que la tarjeta LaCie tiene más desempeño que la asus: el área bajo la línea de la tarjeta LaCie (línea azul) es mayor que la de la Asus (línea Roja). CONCLUSIÓN La tarjeta LaCie se desempeña mejor que la tarjeta Asus. Sospecho que puede ser debido en parte a que la tarjeta Asus también tiene un controlador SATA 6 Gb/s, lo que agrega pasos adicionales internos para el manejo del ancho de banda. Por cierto, el promedio de la tasa de transferencia de lectura de la tarjeta LaCie es 226.004 MB/s y el de escritura es 154.186 MB/s. A pesar de que estos números sólo son válidos para el principio del disco, son muy similares a la transferencia de un disco eSATA, haciendo USB 3.0 un buen substituto para eSATA con la ventaja de que son más baratos y puedes conectarlos en un puerto USB 2.0 en caso de ser necesrio. Tendremos que hacer una prueba para confirmar esta apreciación. Saludos, Eduardo Abril 11, 2011
POR: EDUARDO8088 DESEMPEÑO CUDA SETI@HOME
Hola, Esta es una comparación muy simple del desempeño entre dos de nuestros computadores: El supercomputador con 4 tarjetas Nvidia Tesla (http://www.8088.net/blog/index.php/2010/11/01/especificaciones-del-supercomputador-multi-gpu-tesla/) y uno con 2 Quad Xeon 5420 + 1 Nvidia 8500GT SETI@Home es un proyecto de computación distribuida que busca inteligencia extraterrestre analizando señales grabadas en el radio telescopio de Arecibo, distribuyendo ese análisis en computadores caseros a través de Internet. Más información en: http://setiathome.berkeley.edu/ Figura 1. Créditos obtenidos durante 15 días por un computador con 2 Xeon Quad 5420 + 1 Nvidia 8500GT Figura 2. Créditos obtenidos durante 15 días por un computador con 2 Xeon 5620 + 4 Nvidia Tesla C1060 SETI@Home da puntos (créditos) por cada tarea de procesamiento completada y validada. Las gráficas de arriba muestran cuantos créditos fueron asignados a cada máquina durante dos semanas. Entre el 20 de ago. y el 6 de sep. SETI tenía problemas en sus servidores y la descarga de tareas era lenta, aún así, la máquina Tesla acumuló más del doble de créditos que el Quad Xeon. Después del 6 de sep, ambas máquinas descargaron tareas normalmente y la diferencia fue enorme, la Tesla procesó mucho más que el Quad Xeon. Desafortunadamente la prueba tuvo que ser detenida después de 15 días debido al la cuenta de electricidad de los 850W que consume el computador Tesla cuando está casi al 100%. Saludos, Eduardo Abril 08, 2011
POR: EDUARDO8088 COMPARACIÓN DE IOps: DRIVE DE ESTADO SÓLIDO (SSD) VS. 15000 VS. 7200 VS. 5900 VS. 5600 rpm
Hola, En esta prueba vamos a comparar las operaciones de entrada/salida por segundo (IOps) entre varios discos duros que teníamos a la mano: tres discos SAS de 15000 rpm, uno SATA de 7200 rpm, uno SATA de 5900 rpm, uno SATA de 5600 rpm y un drive de estado sóldio SATA empresarial. Para ir a la gráfica de comparación directamente haz clic aquí. Comparar discos duros no sólo es importante en cuanto a los MB/s que pueden transferir, también es importante saber cuantas operaciones por segundo (IOps) son capces de realizar, es decir, cuantas veces por segundo pueden escribir o leer datos. Este parámetro es muy importante para equipos que reciben muchas solicitudes en un momento dado, por ejemplo, para computadores sobre los que funcionan bases de datos, pues estos tienen que leer y escribir muchos paquetes pequeños de información en un momento dado. Para darles un ejemplo más cotidiano de lo importante que son las IOps, piensen en que van a copiar una película AVI de 2 GB y que luego van a copiar una carpeta de fotos que ocupa 2 GB tambien. La película copiará a la velocidad máxima del disco duro, por decir algo, 100 MB/s, y tardará 20.5 segundos en copiar; mientras que las fotos copiaran a 12 MB/s y tardarán casi 3 minutos en copiar. Pueden intentarlo en sus computadores y se darán cuenta de la gran diferencia que hay entre copiar una y otra cosa. ¿Cuál es la diferencia en el ejemplo anterior si ambos ocupan el mismo tamaño? En términos muy sencillos (y gruesos), es que para copiar la película la cabeza del disco duro sólo tiene que leer una vez la posición del archivo y luego copiar su contenido, se realizan dos operaciones. Para copiar las fotos tiene que leer la posición de cada una y luego copiar su contenido; si cada foto es de 1,5 MB, en 2 Gb habrían más de 1500 fotos, entonces serían más de 3000 operaciones. En cada operación la cabeza tarda un cierto tiempo en completar la tarea y eso se ve reflejado en que la velocidad de lectura y escritura disminuyan. Una característica que determina cuantas IOps puede realizar un disco duro es la velocidad a la que gira. Un disco de computador de escritorio para el hogar gira a 7200 rpm, 5400 rpm o 5600 rpm, mientras que un disco duro empresarial gira a 15000 o 10000 rpm. Girar más rápido hace que debajo de la cabeza del disco pasen más sectores en menos tiempo, por eso pueden hacer mas IOps, esto también los hace más costosos y además tienen una interfaz diferente, llama SAS (Serial Attached SCSI), el estándar actual para discos de servidor. Con el desarrollo de chips de memoria no volátil (que no se borra al quitar la corriente eléctrica) más rápidos, de más capacidad y más confiables, se empezaron a ofrecer en el mercado dispositivos de almacenamiento con las interfaces de los discos duros, pero en vez de discos había chips de memoria. Llamados en inglés Solid State Drive, hace un par de años tenían un precio muy alto, de varios miles de dólares, pero con velocidades que superaban a sus contrapartes mecánicas, lo que hizo que las ventas crecieran y los precios bajaran con el tiempo. En un principio había problemas con la vida útil de los sectores de los chips de memoria, que tienen un número limitado de escrituras/lecturas, pero hoy en día los controladores internos tienen algoritmos para nivelar el uso de cada sector de modo que el tiempo medio antes de una falla (MTBF) es tanto o más que un disco duro, además su precio ha bajado considerablemente (al rango de cientos de dólares) y las velocidades han aumentado. Si bien, en cuanto a MB/s los SSD superan por más del doble a los discos duros (próximamente publicaremos pruebas de eso también), en cuanto a IOps los resultados son aán más sorprendentes. Para tener números concretos acerca de qué tantas IOps puede realizar un SSD respecto a un disco duro, realizamos una prueba con IOmeter usando un perfil de configuración tomado del un post del foro Commuties de VMWare(http://communities.vmware.com/thread/73745), para que fuera comparable con otros resultados. CONDICIONES DE LA PRUEBA La prueba simula condiciones de la vida real de acceso a una base de datos, con una transferencia por petición de 8 kB, 35% de operaciones secuenciales y 65% de aleatorias; 35% de escrituras y 65% de lecturas y 64 comandos en cola (outstanding IOps). La prueba corre por 5 minutos y se repitió 6 veces por disco, se sacó un promedio y se calculó el error estándar de la media para hacer la gráfica. Adicionalmente la prueba se realizó sobre el último 10% de los discos (y del SSD), pues se trata del área más lenta, lo que la convierte en el factor limitante del desempeño y un dato representativo (y más real) del comportamiento de los discos en una condición crítica, esto es, con muy poco espacio libre. Los discos a comparar son: 1. Seagate Cheetah 15k.5 ST373455SS, SAS 3Gb/s, 15000 rpm, 16 MB cache, 74 GB. 2. Fujitsu MAX3147RC, SAS 3Gb/s, 15000 rpm, 16 MB cache, 146 GB. 3. Seagate Cheetah 10T ST3300555SS, SAS 3Gb/s, 15000 rpm, 16 MB cache, 300 GB. 4. Seagate Barracuda ES.2 ST31000640SS, SATA 3 Gb/s, 7200 rpm, 16 MB cache, 1TB. 5. Seagate Barracuda ES.2 ST3500320NS, SATA 3Gb/s, 7200 rpm, 32MB cache, 500GB. 6. Seagate Barracuda 7200.12 ST31000528AS, SATA 3Gb/s, 7200 rpm, 32MB cache, 1TB. 7. Seagate Barracuda LP ST32000542AS, SATA 3Gb/s, 5900 rpm, 32MB cache, 2TB. 8. Hitachi Deskstar 5K1000 HDS5C1010CLA382, SATA 3 Gb/s, 5600 rpm, 8 MB cache, 1 TB. 9. SuperTalent Technology TeraDrive CT FTM12CT25H , SATA 3Gb/s, SSD, 120G. Los tres primeros son discos empresariales SAS, el cuarto y el quinto son discos SATA empresariales, el sexto es un disco SATA para computador de escritorio de alto desempeño, el séptimo y el octavo son para computador casero y el último es un drive de estado sólido empresarial. El sistema donde se desarrolló la prueba tiene las siguientes especificaciones: -2 x Procesador Intel® Xeon E5620 ; 2,40 GHz, 12 MB cache, 1333FSB, Tecnología Intel® HyperThreading, Tecnología Intel® Turbo Boost. -24 GB RAM DDR3 1333MHz ECC, (4GB x 6), configuración en triple canal. -Drive de de estado sólido (SSD, Solid State Drive) de 80 GB Intel X25M SSDSA2M080G2GC para el sistema operativo. -Tarjeta controladora SAS/SATA 6Gb/s, PCI-E 2.0 x8, HighPoint RocketRaid 2720 de 8 puertos. -Tarjeta de video NVidia GeForce 7300 GT. -Tarjeta madre con Chipset dual Intel® 5520, 36 líneas PCI-E 2.0 cada uno (72 total), 6.40 GT/s cada uno. -2 x Puertos de red Gigabit Intel® 82574L. -Chasis 4U torre/montable en armario, fuente de poder de alta eficiencia redundante de 1400W. -Windows 7 Ultimate de 64bit en inglés. Bueno, ahora sí, dejemos que la gráfica hable por si misma: Gráfica de comparación de media de IOps La diferencia entre los discos duros y el SSD es tan grande que tuve que agregar los valores sobre las barras para que se pudieran apreciar mejor las diferencias con los discos. Si bien no se trata de una prueba estadística rigurosa, es suficiente para ilustrar que las diferencias son abismales. El SSD puede hacer entre 18.5 a 21.6 veces más IOps que un disco de 15000 rpm SAS, pero ambos tienen costos similares para este caso. Nada más imagínense varios de estos SSD en RAID. El valor de IOps tan diferente entre discos duros y SSD se debe a que el SSD tiene un controlador que necesita muy poco tiempo para ubicar dirección de memoria donde está ubicada la información en el chip, entonces, mientras la cabeza del disco duro hace una operación, esto es flotar sobre el disco y ubicarse en la posición correcta, el controlador del SSD hace 20 operaciones, simplemente ubica en forma electrónica una fila y una columna en el chip de memoria, una operación mucho más rápida. Esta tecnología está en desarrollo muy activo, por lo que podemos esperar un aumento de desempeño de los SSD en los próximos años, especialmente porque el ancho de banda de la interfaz también va en aumento. Ya tenemos SAS/SATA de 6 Gb/s y el de 9 Gb/s está por venir; un ancho de banda muy amplio para crecer. También hay que esperar qué otras respuestas producen los fabricantes de discos duros. Ya empezaron con los discos duros híbridos, pero con esas diferencias tan grandes y la caída de precios de los SSD, es difícil pensar en que los discos duros van a mantenerse por mucho tiempo liderando el mercado. Como dato adicional, varias de nuestras estaciones de trabajo nuevas para alquilar están saliendo con el SSD de esta prueba para el sistema operativo, así los tiempos de respuesta de Windows y de los programas se disminuyen notablemente. También tenemos un cliente con un servidor con una base de datos montada sobre tres arreglos de SSD en espejo (3 RAID1) funcionando con éxito y batiendo al sistema con discos SAS de 15k rpm que tenían. Estén pendientes de más pruebas. Saludos, Eduardo Diciembre14, 2010
ESPECIFICACIONES DEL SUPERCOMPUTADOR MULTI GPU TESLA
Hola, Quiero mostrarles a todos una foto y las especificaciones de nuestro supercomputador de prueba CUDA, multi GPU TESLA (clic para agrandar): Las cuatro tarjetas prominentes son cuatro procesadores computacionales GPU NVidia TESLA C1060, que pueden ser consideradas tarjetas de video ciegas con mucha RAM para procesar datos, no para video juegos; también pueden ver dos disipadores de calor bajo los cuales hay en cada uno un procesador Intel® Xeon E5620 (2,40 GHz, 12 MB cache, 1333FSB), 4 núcleos, 8 hilos c/u, 16 hilos en total; por último, hay cuatro ventiladores del sistema grandes intercambiables en caliente; todo esto en un chasis de torre 4U montable en armario. Esta máquina fue la usada en nuestro post anterior: CUDA Tests – GPU render – Bunkspeed Shot Las especificacones (casi) completas son: 4 x Tarjeta de procesamiento NVidia Tesla C1060, 4 GDDR3 RAM, 240 núcleos c/u (960 núcleos en total). 2 x Procesador Intel® Xeon E5620 ; 2,40 GHz, 12 MB cache, 1333FSB, simultaneous multithreading (Tecnología Intel® HyperThreading), Tecnología Intel® Turbo Boost. 24 GB RAM DDR3 1333MHz ECC, (4GB x 6), configuración en triple canal, hasta 192 GB de RAM. “Disco” duro de estado sólido (SSD, Solid State Drive) de 100 GB SSD OCZ Vertex Limited Edition, hasta 270 MB/s de lectura, 250 MB/s de escritura (235 MB/s sostenidos de escritura). Tarjeta de video NVidia Quadro FX 580, 512 MB GDDR3 RAM. Tarjeta madre con Chipset dual Intel® 5520, 36 líneas PCI-E 2.0 cada uno (72 total), 6.40 GT/s cada uno. 2 x Puertos de red Gigabit Intel® 82574L Chasis 4U torre/montable en armario, 8 bahías removibles de DD de 3,5″, 3 bahías de 5.25″, 1 bahía de 3.5″ , 4 ventiladores internos intercambiables en caliente, 2 ventiladores traseros intercambiables en caliente, fuente de poder de alta eficiencia redundante de 1400W. Saludos, Eduardo Noviembre 01, 2010
POR: EDUARDO8088 PRUEBAS DE CUDA - RENDER POR GPU TESLA - BUNKSPEED SHOT
Hola, En los últimos dos meses empezamos a probar una tecnología basada en procesamiento por GPU. Su nombre es CUDA y es desarrollada por NVidia. NVida tiene tarjetas dedicadas únicamente a procesamiento por GPU, tarjetas TESLA, así que decidimos comprar un computador con cuatro de ellas para ver qué tal funciona. El computador lo llamamos “Tesla” (no muy original, pero práctico) y esta es una de las primeras pruebas . La configuración es la siguiente: 4 tarjetas GPU NVidia Tesla C1060 4GB, 2 procesadores Xeon E5620 (16 hilos de procesamiento en total), 24 GB DDR3 ECC RAM Tripple channel, Drive de estado sólido de 100 GB OCZ Vertex SSD,Fuente de poder redundante de 1400W, chasis de torre, Windows 7 Ultimate 64 bit. Puesto que nosotros nos dedicamos principalmente a la industria del 3D y la posproducción de video, decidimos hacer varias pruebas usando algunas aplicaciones de render por GPU disponibles en el mercado. Empezamos por Bunkspeed Shot, una aplicación independiente basada en iray, el motor de render por GPU de Mental Images, mejor conocido por su motor de render Mentalray. En la prueba jugamos un poco con un modelo de prueba del programa, manipulándolo en el visor y luego cambiando los materiales en tiempo real para ver cómo se comportaba. Por último cambiamos la resolución para ajuste a la panalla (1280 x 768) tratando de exigirle más a las tarjetas Tesla. El desempeño parce muy bueno, sin embargo, el software no usa toda la capacidad disponible tanto de las CPU como de las GPU. Estamos mirando cómo podemos hacer que las tarjetas se acerquen al 100%, ¡así que estén pendientes a ver qué sucede! Les dejo el video para que juzguen por ustedes mismos cómo salió la prueba (¡no olviden cambiar la calidad a 720p HD para ver todos los detalles de la prueba!) Saludos, Eduardo. Noviembre 01, 2010
POR: EDUARDO8088
BIENVENIDOS AL BLOG DE 8088.net
Hola, En este blog vamos a poner todas las pruebas que realizemos en nuestras investigaciones con el hardware y el software de alto desempeño que manejamos en nuestra empresa. La idea es mostrar cómo se comportan nuestras máquinas en el mundo real, los números detrás de las especificaciones. Pueden hacer las preguntas generales en este post. ¡Estén pendientes! Saludos, Eduardo Noviembre 01, 2010
POR: EDUARDO8088 PRUEBAS CON USB 3.0 - COMPARACIÓN ENTRE TARJETAS LACIE Y ASUS
Hicimos unas pruebas con USB 3.0 y como siempre, probamos para saber los números reales -no confiamos en la especificaciones de lo fabricantes-. Vamos a comparar dos modelos diferentes de tarejtas USB 3.0 usando un disco duro externo RAID para poder tener un disco muy rápido que no sea un factor limitante en las pruebas. El programa para las pruebas es Crystal Disk Mark 3.0.0 x64 (http://crystalmark.info/?lang=en). Hice 29 réplicas de una prueba de 2 GB para cada tarjeta y las comparé usando la prueba estadística no paramétrica de Mann-Whitney (α 0.05000, N=29) y gráficas de los datos. El montaje de la prueba es: Procesador: Dual Xeon E5420, 2,5 Ghz, 12 MB cache, 1333 FSB RAM: 8 GB RAM DDR2 ECC 667MHz Disco de sistema: Seagate ES.2 ST3500320NS, 7200 rpm, 500 GB Video: NVidia GeForce GT430, 1GB Board: De servidor, socket dual, chipset Intel 5100, 6 puertos SATA2 (3 Gbps) via controlador ICH9R SB Fuente: Real 500W alta eficiencia HEC Sistema operativo: Windows 7 Ultimate 64bit, ingles Disco de prueba: Disco externo LaCie 2big USB 3.0, RAID0 2 discos duros, 2 TB total. Tarjeta de prueba 1: Adaptador de 2 puesrtos LaCie PCIe x4, USB 3.0. NEC µPD720200 chip Tarjeta de prueba 2: Adaptador de 2 puertos Asus U3S6 MG990T-C PCI-E x4, USB 3.0 + SATA 6Gb/s 2 puertos RESULTADOS: Figura 1. Velocidad de transferencia de lectura de dos tarjetas USB 3.0. 29 réplicas de 2000 MB c/u. Barras de error son error estándar de la media. Figura 2. Velocidad de transferencia de escritura de dos tarjetas USB 3.0. 29 réplicas de 2000 MB c/u. Barras de error son error estándar de la media. Para la velocidad de lectura, hay diferencias significativas (p-valor=0.00001, U=137, rechaza que las dos muestras provienen de la misma distribución). Sabiendo que ambas tarjetas son significativamente diferentes, una simple inspección visual de la figura 1 revela que la tarjeta LaCie tiene más desempeño que la asus: el área bajo la línea de la tarjeta LaCie (línea azul) es mayor que la de la Asus (línea Roja). CONCLUSIÓN La tarjeta LaCie se desempeña mejor que la tarjeta Asus. Sospecho que puede ser debido en parte a que la tarjeta Asus también tiene un controlador SATA 6 Gb/s, lo que agrega pasos adicionales internos para el manejo del ancho de banda. Por cierto, el promedio de la tasa de transferencia de lectura de la tarjeta LaCie es 226.004 MB/s y el de escritura es 154.186 MB/s. A pesar de que estos números sólo son válidos para el principio del disco, son muy similares a la transferencia de un disco eSATA, haciendo USB 3.0 un buen substituto para eSATA con la ventaja de que son más baratos y puedes conectarlos en un puerto USB 2.0 en caso de ser necesrio. Tendremos que hacer una prueba para confirmar esta apreciación. Saludos, Eduardo Abril 11, 2011
POR: EDUARDO8088 DESEMPEÑO CUDA SETI@HOME
Hola, Esta es una comparación muy simple del desempeño entre dos de nuestros computadores: El supercomputador con 4 tarjetas Nvidia Tesla (http://www.8088.net/blog/index.php/2010/11/01/especificaciones-del-supercomputador-multi-gpu-tesla/) y uno con 2 Quad Xeon 5420 + 1 Nvidia 8500GT SETI@Home es un proyecto de computación distribuida que busca inteligencia extraterrestre analizando señales grabadas en el radio telescopio de Arecibo, distribuyendo ese análisis en computadores caseros a través de Internet. Más información en: http://setiathome.berkeley.edu/ Figura 1. Créditos obtenidos durante 15 días por un computador con 2 Xeon Quad 5420 + 1 Nvidia 8500GT Figura 2. Créditos obtenidos durante 15 días por un computador con 2 Xeon 5620 + 4 Nvidia Tesla C1060 SETI@Home da puntos (créditos) por cada tarea de procesamiento completada y validada. Las gráficas de arriba muestran cuantos créditos fueron asignados a cada máquina durante dos semanas. Entre el 20 de ago. y el 6 de sep. SETI tenía problemas en sus servidores y la descarga de tareas era lenta, aún así, la máquina Tesla acumuló más del doble de créditos que el Quad Xeon. Después del 6 de sep, ambas máquinas descargaron tareas normalmente y la diferencia fue enorme, la Tesla procesó mucho más que el Quad Xeon. Desafortunadamente la prueba tuvo que ser detenida después de 15 días debido al la cuenta de electricidad de los 850W que consume el computador Tesla cuando está casi al 100%. Saludos, Eduardo Abril 08, 2011
POR: EDUARDO8088 COMPARACIÓN DE IOps: DRIVE DE ESTADO SÓLIDO (SSD) VS. 15000 VS. 7200 VS. 5900 VS. 5600 rpm
Hola, En esta prueba vamos a comparar las operaciones de entrada/salida por segundo (IOps) entre varios discos duros que teníamos a la mano: tres discos SAS de 15000 rpm, uno SATA de 7200 rpm, uno SATA de 5900 rpm, uno SATA de 5600 rpm y un drive de estado sóldio SATA empresarial. Para ir a la gráfica de comparación directamente haz clic aquí. Comparar discos duros no sólo es importante en cuanto a los MB/s que pueden transferir, también es importante saber cuantas operaciones por segundo (IOps) son capces de realizar, es decir, cuantas veces por segundo pueden escribir o leer datos. Este parámetro es muy importante para equipos que reciben muchas solicitudes en un momento dado, por ejemplo, para computadores sobre los que funcionan bases de datos, pues estos tienen que leer y escribir muchos paquetes pequeños de información en un momento dado. Para darles un ejemplo más cotidiano de lo importante que son las IOps, piensen en que van a copiar una película AVI de 2 GB y que luego van a copiar una carpeta de fotos que ocupa 2 GB tambien. La película copiará a la velocidad máxima del disco duro, por decir algo, 100 MB/s, y tardará 20.5 segundos en copiar; mientras que las fotos copiaran a 12 MB/s y tardarán casi 3 minutos en copiar. Pueden intentarlo en sus computadores y se darán cuenta de la gran diferencia que hay entre copiar una y otra cosa. ¿Cuál es la diferencia en el ejemplo anterior si ambos ocupan el mismo tamaño? En términos muy sencillos (y gruesos), es que para copiar la película la cabeza del disco duro sólo tiene que leer una vez la posición del archivo y luego copiar su contenido, se realizan dos operaciones. Para copiar las fotos tiene que leer la posición de cada una y luego copiar su contenido; si cada foto es de 1,5 MB, en 2 Gb habrían más de 1500 fotos, entonces serían más de 3000 operaciones. En cada operación la cabeza tarda un cierto tiempo en completar la tarea y eso se ve reflejado en que la velocidad de lectura y escritura disminuyan. Una característica que determina cuantas IOps puede realizar un disco duro es la velocidad a la que gira. Un disco de computador de escritorio para el hogar gira a 7200 rpm, 5400 rpm o 5600 rpm, mientras que un disco duro empresarial gira a 15000 o 10000 rpm. Girar más rápido hace que debajo de la cabeza del disco pasen más sectores en menos tiempo, por eso pueden hacer mas IOps, esto también los hace más costosos y además tienen una interfaz diferente, llama SAS (Serial Attached SCSI), el estándar actual para discos de servidor. Con el desarrollo de chips de memoria no volátil (que no se borra al quitar la corriente eléctrica) más rápidos, de más capacidad y más confiables, se empezaron a ofrecer en el mercado dispositivos de almacenamiento con las interfaces de los discos duros, pero en vez de discos había chips de memoria. Llamados en inglés Solid State Drive, hace un par de años tenían un precio muy alto, de varios miles de dólares, pero con velocidades que superaban a sus contrapartes mecánicas, lo que hizo que las ventas crecieran y los precios bajaran con el tiempo. En un principio había problemas con la vida útil de los sectores de los chips de memoria, que tienen un número limitado de escrituras/lecturas, pero hoy en día los controladores internos tienen algoritmos para nivelar el uso de cada sector de modo que el tiempo medio antes de una falla (MTBF) es tanto o más que un disco duro, además su precio ha bajado considerablemente (al rango de cientos de dólares) y las velocidades han aumentado. Si bien, en cuanto a MB/s los SSD superan por más del doble a los discos duros (próximamente publicaremos pruebas de eso también), en cuanto a IOps los resultados son aán más sorprendentes. Para tener números concretos acerca de qué tantas IOps puede realizar un SSD respecto a un disco duro, realizamos una prueba con IOmeter usando un perfil de configuración tomado del un post del foro Commuties de VMWare(http://communities.vmware.com/thread/73745), para que fuera comparable con otros resultados. CONDICIONES DE LA PRUEBA La prueba simula condiciones de la vida real de acceso a una base de datos, con una transferencia por petición de 8 kB, 35% de operaciones secuenciales y 65% de aleatorias; 35% de escrituras y 65% de lecturas y 64 comandos en cola (outstanding IOps). La prueba corre por 5 minutos y se repitió 6 veces por disco, se sacó un promedio y se calculó el error estándar de la media para hacer la gráfica. Adicionalmente la prueba se realizó sobre el último 10% de los discos (y del SSD), pues se trata del área más lenta, lo que la convierte en el factor limitante del desempeño y un dato representativo (y más real) del comportamiento de los discos en una condición crítica, esto es, con muy poco espacio libre. Los discos a comparar son: 1. Seagate Cheetah 15k.5 ST373455SS, SAS 3Gb/s, 15000 rpm, 16 MB cache, 74 GB. 2. Fujitsu MAX3147RC, SAS 3Gb/s, 15000 rpm, 16 MB cache, 146 GB. 3. Seagate Cheetah 10T ST3300555SS, SAS 3Gb/s, 15000 rpm, 16 MB cache, 300 GB. 4. Seagate Barracuda ES.2 ST31000640SS, SATA 3 Gb/s, 7200 rpm, 16 MB cache, 1TB. 5. Seagate Barracuda ES.2 ST3500320NS, SATA 3Gb/s, 7200 rpm, 32MB cache, 500GB. 6. Seagate Barracuda 7200.12 ST31000528AS, SATA 3Gb/s, 7200 rpm, 32MB cache, 1TB. 7. Seagate Barracuda LP ST32000542AS, SATA 3Gb/s, 5900 rpm, 32MB cache, 2TB. 8. Hitachi Deskstar 5K1000 HDS5C1010CLA382, SATA 3 Gb/s, 5600 rpm, 8 MB cache, 1 TB. 9. SuperTalent Technology TeraDrive CT FTM12CT25H , SATA 3Gb/s, SSD, 120G. Los tres primeros son discos empresariales SAS, el cuarto y el quinto son discos SATA empresariales, el sexto es un disco SATA para computador de escritorio de alto desempeño, el séptimo y el octavo son para computador casero y el último es un drive de estado sólido empresarial. El sistema donde se desarrolló la prueba tiene las siguientes especificaciones: -2 x Procesador Intel® Xeon E5620 ; 2,40 GHz, 12 MB cache, 1333FSB, Tecnología Intel® HyperThreading, Tecnología Intel® Turbo Boost. -24 GB RAM DDR3 1333MHz ECC, (4GB x 6), configuración en triple canal. -Drive de de estado sólido (SSD, Solid State Drive) de 80 GB Intel X25M SSDSA2M080G2GC para el sistema operativo. -Tarjeta controladora SAS/SATA 6Gb/s, PCI-E 2.0 x8, HighPoint RocketRaid 2720 de 8 puertos. -Tarjeta de video NVidia GeForce 7300 GT. -Tarjeta madre con Chipset dual Intel® 5520, 36 líneas PCI-E 2.0 cada uno (72 total), 6.40 GT/s cada uno. -2 x Puertos de red Gigabit Intel® 82574L. -Chasis 4U torre/montable en armario, fuente de poder de alta eficiencia redundante de 1400W. -Windows 7 Ultimate de 64bit en inglés. Bueno, ahora sí, dejemos que la gráfica hable por si misma: Gráfica de comparación de media de IOps La diferencia entre los discos duros y el SSD es tan grande que tuve que agregar los valores sobre las barras para que se pudieran apreciar mejor las diferencias con los discos. Si bien no se trata de una prueba estadística rigurosa, es suficiente para ilustrar que las diferencias son abismales. El SSD puede hacer entre 18.5 a 21.6 veces más IOps que un disco de 15000 rpm SAS, pero ambos tienen costos similares para este caso. Nada más imagínense varios de estos SSD en RAID. El valor de IOps tan diferente entre discos duros y SSD se debe a que el SSD tiene un controlador que necesita muy poco tiempo para ubicar dirección de memoria donde está ubicada la información en el chip, entonces, mientras la cabeza del disco duro hace una operación, esto es flotar sobre el disco y ubicarse en la posición correcta, el controlador del SSD hace 20 operaciones, simplemente ubica en forma electrónica una fila y una columna en el chip de memoria, una operación mucho más rápida. Esta tecnología está en desarrollo muy activo, por lo que podemos esperar un aumento de desempeño de los SSD en los próximos años, especialmente porque el ancho de banda de la interfaz también va en aumento. Ya tenemos SAS/SATA de 6 Gb/s y el de 9 Gb/s está por venir; un ancho de banda muy amplio para crecer. También hay que esperar qué otras respuestas producen los fabricantes de discos duros. Ya empezaron con los discos duros híbridos, pero con esas diferencias tan grandes y la caída de precios de los SSD, es difícil pensar en que los discos duros van a mantenerse por mucho tiempo liderando el mercado. Como dato adicional, varias de nuestras estaciones de trabajo nuevas para alquilar están saliendo con el SSD de esta prueba para el sistema operativo, así los tiempos de respuesta de Windows y de los programas se disminuyen notablemente. También tenemos un cliente con un servidor con una base de datos montada sobre tres arreglos de SSD en espejo (3 RAID1) funcionando con éxito y batiendo al sistema con discos SAS de 15k rpm que tenían. Estén pendientes de más pruebas. Saludos, Eduardo Diciembre14, 2010
ESPECIFICACIONES DEL SUPERCOMPUTADOR MULTI GPU TESLA
Hola, Quiero mostrarles a todos una foto y las especificaciones de nuestro supercomputador de prueba CUDA, multi GPU TESLA (clic para agrandar): Las cuatro tarjetas prominentes son cuatro procesadores computacionales GPU NVidia TESLA C1060, que pueden ser consideradas tarjetas de video ciegas con mucha RAM para procesar datos, no para video juegos; también pueden ver dos disipadores de calor bajo los cuales hay en cada uno un procesador Intel® Xeon E5620 (2,40 GHz, 12 MB cache, 1333FSB), 4 núcleos, 8 hilos c/u, 16 hilos en total; por último, hay cuatro ventiladores del sistema grandes intercambiables en caliente; todo esto en un chasis de torre 4U montable en armario. Esta máquina fue la usada en nuestro post anterior: CUDA Tests – GPU render – Bunkspeed Shot Las especificacones (casi) completas son: 4 x Tarjeta de procesamiento NVidia Tesla C1060, 4 GDDR3 RAM, 240 núcleos c/u (960 núcleos en total). 2 x Procesador Intel® Xeon E5620 ; 2,40 GHz, 12 MB cache, 1333FSB, simultaneous multithreading (Tecnología Intel® HyperThreading), Tecnología Intel® Turbo Boost. 24 GB RAM DDR3 1333MHz ECC, (4GB x 6), configuración en triple canal, hasta 192 GB de RAM. “Disco” duro de estado sólido (SSD, Solid State Drive) de 100 GB SSD OCZ Vertex Limited Edition, hasta 270 MB/s de lectura, 250 MB/s de escritura (235 MB/s sostenidos de escritura). Tarjeta de video NVidia Quadro FX 580, 512 MB GDDR3 RAM. Tarjeta madre con Chipset dual Intel® 5520, 36 líneas PCI-E 2.0 cada uno (72 total), 6.40 GT/s cada uno. 2 x Puertos de red Gigabit Intel® 82574L Chasis 4U torre/montable en armario, 8 bahías removibles de DD de 3,5″, 3 bahías de 5.25″, 1 bahía de 3.5″ , 4 ventiladores internos intercambiables en caliente, 2 ventiladores traseros intercambiables en caliente, fuente de poder de alta eficiencia redundante de 1400W. Saludos, Eduardo Noviembre 01, 2010
POR: EDUARDO8088 PRUEBAS DE CUDA - RENDER POR GPU TESLA - BUNKSPEED SHOT
Hola, En los últimos dos meses empezamos a probar una tecnología basada en procesamiento por GPU. Su nombre es CUDA y es desarrollada por NVidia. NVida tiene tarjetas dedicadas únicamente a procesamiento por GPU, tarjetas TESLA, así que decidimos comprar un computador con cuatro de ellas para ver qué tal funciona. El computador lo llamamos “Tesla” (no muy original, pero práctico) y esta es una de las primeras pruebas . La configuración es la siguiente: 4 tarjetas GPU NVidia Tesla C1060 4GB, 2 procesadores Xeon E5620 (16 hilos de procesamiento en total), 24 GB DDR3 ECC RAM Tripple channel, Drive de estado sólido de 100 GB OCZ Vertex SSD,Fuente de poder redundante de 1400W, chasis de torre, Windows 7 Ultimate 64 bit. Puesto que nosotros nos dedicamos principalmente a la industria del 3D y la posproducción de video, decidimos hacer varias pruebas usando algunas aplicaciones de render por GPU disponibles en el mercado. Empezamos por Bunkspeed Shot, una aplicación independiente basada en iray, el motor de render por GPU de Mental Images, mejor conocido por su motor de render Mentalray. En la prueba jugamos un poco con un modelo de prueba del programa, manipulándolo en el visor y luego cambiando los materiales en tiempo real para ver cómo se comportaba. Por último cambiamos la resolución para ajuste a la panalla (1280 x 768) tratando de exigirle más a las tarjetas Tesla. El desempeño parce muy bueno, sin embargo, el software no usa toda la capacidad disponible tanto de las CPU como de las GPU. Estamos mirando cómo podemos hacer que las tarjetas se acerquen al 100%, ¡así que estén pendientes a ver qué sucede! Les dejo el video para que juzguen por ustedes mismos cómo salió la prueba (¡no olviden cambiar la calidad a 720p HD para ver todos los detalles de la prueba!) Saludos, Eduardo.
Noviembre 01, 2010
POR: EDUARDO8088 BIENVENIDOS AL BLOG DE 8088.net
Hola, En este blog vamos a poner todas las pruebas que realizemos en nuestras investigaciones con el hardware y el software de alto desempeño que manejamos en nuestra empresa. La idea es mostrar cómo se comportan nuestras máquinas en el mundo real, los números detrás de las especificaciones. Pueden hacer las preguntas generales en este post. ¡Estén pendientes! Saludos, Eduardo
Noviembre 01, 2010
  •  

POR: EDUARDO8088 PRUEBAS CON USB 3.0 - COMPARACIÓN ENTRE TARJETAS LACIE Y ASUS
Hicimos unas pruebas con USB 3.0 y como siempre, probamos para saber los números reales -no confiamos en la especificaciones de lo fabricantes-. Vamos a comparar dos modelos diferentes de tarejtas USB 3.0 usando un disco duro externo RAID para poder tener un disco muy rápido que no sea un factor limitante en las pruebas. El programa para las pruebas es Crystal Disk Mark 3.0.0 x64 (http://crystalmark.info/?lang=en). Hice 29 réplicas de una prueba de 2 GB para cada tarjeta y las comparé usando la prueba estadística no paramétrica de Mann-Whitney (α 0.05000, N=29) y gráficas de los datos. El montaje de la prueba es: Procesador: Dual Xeon E5420, 2,5 Ghz, 12 MB cache, 1333 FSB RAM: 8 GB RAM DDR2 ECC 667MHz Disco de sistema: Seagate ES.2 ST3500320NS, 7200 rpm, 500 GB Video: NVidia GeForce GT430, 1GB Board: De servidor, socket dual, chipset Intel 5100, 6 puertos SATA2 (3 Gbps) via controlador ICH9R SB Fuente: Real 500W alta eficiencia HEC Sistema operativo: Windows 7 Ultimate 64bit, ingles Disco de prueba: Disco externo LaCie 2big USB 3.0, RAID0 2 discos duros, 2 TB total. Tarjeta de prueba 1: Adaptador de 2 puesrtos LaCie PCIe x4, USB 3.0. NEC µPD720200 chip Tarjeta de prueba 2: Adaptador de 2 puertos Asus U3S6 MG990T-C PCI-E x4, USB 3.0 + SATA 6Gb/s 2 puertos RESULTADOS: Figura 1. Velocidad de transferencia de lectura de dos tarjetas USB 3.0. 29 réplicas de 2000 MB c/u. Barras de error son error estándar de la media. Figura 2. Velocidad de transferencia de escritura de dos tarjetas USB 3.0. 29 réplicas de 2000 MB c/u. Barras de error son error estándar de la media. Para la velocidad de lectura, hay diferencias significativas (p-valor=0.00001, U=137, rechaza que las dos muestras provienen de la misma distribución). Sabiendo que ambas tarjetas son significativamente diferentes, una simple inspección visual de la figura 1 revela que la tarjeta LaCie tiene más desempeño que la asus: el área bajo la línea de la tarjeta LaCie (línea azul) es mayor que la de la Asus (línea Roja). CONCLUSIÓN La tarjeta LaCie se desempeña mejor que la tarjeta Asus. Sospecho que puede ser debido en parte a que la tarjeta Asus también tiene un controlador SATA 6 Gb/s, lo que agrega pasos adicionales internos para el manejo del ancho de banda. Por cierto, el promedio de la tasa de transferencia de lectura de la tarjeta LaCie es 226.004 MB/s y el de escritura es 154.186 MB/s. A pesar de que estos números sólo son válidos para el principio del disco, son muy similares a la transferencia de un disco eSATA, haciendo USB 3.0 un buen substituto para eSATA con la ventaja de que son más baratos y puedes conectarlos en un puerto USB 2.0 en caso de ser necesrio. Tendremos que hacer una prueba para confirmar esta apreciación. Saludos, Eduardo Abril 11, 2011
POR: EDUARDO8088 DESEMPEÑO CUDA SETI@HOME
Hola, Esta es una comparación muy simple del desempeño entre dos de nuestros computadores: El supercomputador con 4 tarjetas Nvidia Tesla (http://www.8088.net/blog/index.php/2010/11/01/especificaciones-del-supercomputador-multi-gpu-tesla/) y uno con 2 Quad Xeon 5420 + 1 Nvidia 8500GT SETI@Home es un proyecto de computación distribuida que busca inteligencia extraterrestre analizando señales grabadas en el radio telescopio de Arecibo, distribuyendo ese análisis en computadores caseros a través de Internet. Más información en: http://setiathome.berkeley.edu/ Figura 1. Créditos obtenidos durante 15 días por un computador con 2 Xeon Quad 5420 + 1 Nvidia 8500GT Figura 2. Créditos obtenidos durante 15 días por un computador con 2 Xeon 5620 + 4 Nvidia Tesla C1060 SETI@Home da puntos (créditos) por cada tarea de procesamiento completada y validada. Las gráficas de arriba muestran cuantos créditos fueron asignados a cada máquina durante dos semanas. Entre el 20 de ago. y el 6 de sep. SETI tenía problemas en sus servidores y la descarga de tareas era lenta, aún así, la máquina Tesla acumuló más del doble de créditos que el Quad Xeon. Después del 6 de sep, ambas máquinas descargaron tareas normalmente y la diferencia fue enorme, la Tesla procesó mucho más que el Quad Xeon. Desafortunadamente la prueba tuvo que ser detenida después de 15 días debido al la cuenta de electricidad de los 850W que consume el computador Tesla cuando está casi al 100%. Saludos, Eduardo Abril 08, 2011
POR: EDUARDO8088 COMPARACIÓN DE IOps: DRIVE DE ESTADO SÓLIDO (SSD) VS. 15000 VS. 7200 VS. 5900 VS. 5600 rpm
Hola, En esta prueba vamos a comparar las operaciones de entrada/salida por segundo (IOps) entre varios discos duros que teníamos a la mano: tres discos SAS de 15000 rpm, uno SATA de 7200 rpm, uno SATA de 5900 rpm, uno SATA de 5600 rpm y un drive de estado sóldio SATA empresarial. Para ir a la gráfica de comparación directamente haz clic aquí. Comparar discos duros no sólo es importante en cuanto a los MB/s que pueden transferir, también es importante saber cuantas operaciones por segundo (IOps) son capces de realizar, es decir, cuantas veces por segundo pueden escribir o leer datos. Este parámetro es muy importante para equipos que reciben muchas solicitudes en un momento dado, por ejemplo, para computadores sobre los que funcionan bases de datos, pues estos tienen que leer y escribir muchos paquetes pequeños de información en un momento dado. Para darles un ejemplo más cotidiano de lo importante que son las IOps, piensen en que van a copiar una película AVI de 2 GB y que luego van a copiar una carpeta de fotos que ocupa 2 GB tambien. La película copiará a la velocidad máxima del disco duro, por decir algo, 100 MB/s, y tardará 20.5 segundos en copiar; mientras que las fotos copiaran a 12 MB/s y tardarán casi 3 minutos en copiar. Pueden intentarlo en sus computadores y se darán cuenta de la gran diferencia que hay entre copiar una y otra cosa. ¿Cuál es la diferencia en el ejemplo anterior si ambos ocupan el mismo tamaño? En términos muy sencillos (y gruesos), es que para copiar la película la cabeza del disco duro sólo tiene que leer una vez la posición del archivo y luego copiar su contenido, se realizan dos operaciones. Para copiar las fotos tiene que leer la posición de cada una y luego copiar su contenido; si cada foto es de 1,5 MB, en 2 Gb habrían más de 1500 fotos, entonces serían más de 3000 operaciones. En cada operación la cabeza tarda un cierto tiempo en completar la tarea y eso se ve reflejado en que la velocidad de lectura y escritura disminuyan. Una característica que determina cuantas IOps puede realizar un disco duro es la velocidad a la que gira. Un disco de computador de escritorio para el hogar gira a 7200 rpm, 5400 rpm o 5600 rpm, mientras que un disco duro empresarial gira a 15000 o 10000 rpm. Girar más rápido hace que debajo de la cabeza del disco pasen más sectores en menos tiempo, por eso pueden hacer mas IOps, esto también los hace más costosos y además tienen una interfaz diferente, llama SAS (Serial Attached SCSI), el estándar actual para discos de servidor. Con el desarrollo de chips de memoria no volátil (que no se borra al quitar la corriente eléctrica) más rápidos, de más capacidad y más confiables, se empezaron a ofrecer en el mercado dispositivos de almacenamiento con las interfaces de los discos duros, pero en vez de discos había chips de memoria. Llamados en inglés Solid State Drive, hace un par de años tenían un precio muy alto, de varios miles de dólares, pero con velocidades que superaban a sus contrapartes mecánicas, lo que hizo que las ventas crecieran y los precios bajaran con el tiempo. En un principio había problemas con la vida útil de los sectores de los chips de memoria, que tienen un número limitado de escrituras/lecturas, pero hoy en día los controladores internos tienen algoritmos para nivelar el uso de cada sector de modo que el tiempo medio antes de una falla (MTBF) es tanto o más que un disco duro, además su precio ha bajado considerablemente (al rango de cientos de dólares) y las velocidades han aumentado. Si bien, en cuanto a MB/s los SSD superan por más del doble a los discos duros (próximamente publicaremos pruebas de eso también), en cuanto a IOps los resultados son aán más sorprendentes. Para tener números concretos acerca de qué tantas IOps puede realizar un SSD respecto a un disco duro, realizamos una prueba con IOmeter usando un perfil de configuración tomado del un post del foro Commuties de VMWare(http://communities.vmware.com/thread/73745), para que fuera comparable con otros resultados. CONDICIONES DE LA PRUEBA La prueba simula condiciones de la vida real de acceso a una base de datos, con una transferencia por petición de 8 kB, 35% de operaciones secuenciales y 65% de aleatorias; 35% de escrituras y 65% de lecturas y 64 comandos en cola (outstanding IOps). La prueba corre por 5 minutos y se repitió 6 veces por disco, se sacó un promedio y se calculó el error estándar de la media para hacer la gráfica. Adicionalmente la prueba se realizó sobre el último 10% de los discos (y del SSD), pues se trata del área más lenta, lo que la convierte en el factor limitante del desempeño y un dato representativo (y más real) del comportamiento de los discos en una condición crítica, esto es, con muy poco espacio libre. Los discos a comparar son: 1. Seagate Cheetah 15k.5 ST373455SS, SAS 3Gb/s, 15000 rpm, 16 MB cache, 74 GB. 2. Fujitsu MAX3147RC, SAS 3Gb/s, 15000 rpm, 16 MB cache, 146 GB. 3. Seagate Cheetah 10T ST3300555SS, SAS 3Gb/s, 15000 rpm, 16 MB cache, 300 GB. 4. Seagate Barracuda ES.2 ST31000640SS, SATA 3 Gb/s, 7200 rpm, 16 MB cache, 1TB. 5. Seagate Barracuda ES.2 ST3500320NS, SATA 3Gb/s, 7200 rpm, 32MB cache, 500GB. 6. Seagate Barracuda 7200.12 ST31000528AS, SATA 3Gb/s, 7200 rpm, 32MB cache, 1TB. 7. Seagate Barracuda LP ST32000542AS, SATA 3Gb/s, 5900 rpm, 32MB cache, 2TB. 8. Hitachi Deskstar 5K1000 HDS5C1010CLA382, SATA 3 Gb/s, 5600 rpm, 8 MB cache, 1 TB. 9. SuperTalent Technology TeraDrive CT FTM12CT25H , SATA 3Gb/s, SSD, 120G. Los tres primeros son discos empresariales SAS, el cuarto y el quinto son discos SATA empresariales, el sexto es un disco SATA para computador de escritorio de alto desempeño, el séptimo y el octavo son para computador casero y el último es un drive de estado sólido empresarial. El sistema donde se desarrolló la prueba tiene las siguientes especificaciones: -2 x Procesador Intel® Xeon E5620 ; 2,40 GHz, 12 MB cache, 1333FSB, Tecnología Intel® HyperThreading, Tecnología Intel® Turbo Boost. -24 GB RAM DDR3 1333MHz ECC, (4GB x 6), configuración en triple canal. -Drive de de estado sólido (SSD, Solid State Drive) de 80 GB Intel X25M SSDSA2M080G2GC para el sistema operativo. -Tarjeta controladora SAS/SATA 6Gb/s, PCI-E 2.0 x8, HighPoint RocketRaid 2720 de 8 puertos. -Tarjeta de video NVidia GeForce 7300 GT. -Tarjeta madre con Chipset dual Intel® 5520, 36 líneas PCI-E 2.0 cada uno (72 total), 6.40 GT/s cada uno. -2 x Puertos de red Gigabit Intel® 82574L. -Chasis 4U torre/montable en armario, fuente de poder de alta eficiencia redundante de 1400W. -Windows 7 Ultimate de 64bit en inglés. Bueno, ahora sí, dejemos que la gráfica hable por si misma: Gráfica de comparación de media de IOps La diferencia entre los discos duros y el SSD es tan grande que tuve que agregar los valores sobre las barras para que se pudieran apreciar mejor las diferencias con los discos. Si bien no se trata de una prueba estadística rigurosa, es suficiente para ilustrar que las diferencias son abismales. El SSD puede hacer entre 18.5 a 21.6 veces más IOps que un disco de 15000 rpm SAS, pero ambos tienen costos similares para este caso. Nada más imagínense varios de estos SSD en RAID. El valor de IOps tan diferente entre discos duros y SSD se debe a que el SSD tiene un controlador que necesita muy poco tiempo para ubicar dirección de memoria donde está ubicada la información en el chip, entonces, mientras la cabeza del disco duro hace una operación, esto es flotar sobre el disco y ubicarse en la posición correcta, el controlador del SSD hace 20 operaciones, simplemente ubica en forma electrónica una fila y una columna en el chip de memoria, una operación mucho más rápida. Esta tecnología está en desarrollo muy activo, por lo que podemos esperar un aumento de desempeño de los SSD en los próximos años, especialmente porque el ancho de banda de la interfaz también va en aumento. Ya tenemos SAS/SATA de 6 Gb/s y el de 9 Gb/s está por venir; un ancho de banda muy amplio para crecer. También hay que esperar qué otras respuestas producen los fabricantes de discos duros. Ya empezaron con los discos duros híbridos, pero con esas diferencias tan grandes y la caída de precios de los SSD, es difícil pensar en que los discos duros van a mantenerse por mucho tiempo liderando el mercado. Como dato adicional, varias de nuestras estaciones de trabajo nuevas para alquilar están saliendo con el SSD de esta prueba para el sistema operativo, así los tiempos de respuesta de Windows y de los programas se disminuyen notablemente. También tenemos un cliente con un servidor con una base de datos montada sobre tres arreglos de SSD en espejo (3 RAID1) funcionando con éxito y batiendo al sistema con discos SAS de 15k rpm que tenían. Estén pendientes de más pruebas. Saludos, Eduardo Diciembre14, 2010
ESPECIFICACIONES DEL SUPERCOMPUTADOR MULTI GPU TESLA
Hola, Quiero mostrarles a todos una foto y las especificaciones de nuestro supercomputador de prueba CUDA, multi GPU TESLA (clic para agrandar): Las cuatro tarjetas prominentes son cuatro procesadores computacionales GPU NVidia TESLA C1060, que pueden ser consideradas tarjetas de video ciegas con mucha RAM para procesar datos, no para video juegos; también pueden ver dos disipadores de calor bajo los cuales hay en cada uno un procesador Intel® Xeon E5620 (2,40 GHz, 12 MB cache, 1333FSB), 4 núcleos, 8 hilos c/u, 16 hilos en total; por último, hay cuatro ventiladores del sistema grandes intercambiables en caliente; todo esto en un chasis de torre 4U montable en armario. Esta máquina fue la usada en nuestro post anterior: CUDA Tests – GPU render – Bunkspeed Shot Las especificacones (casi) completas son: 4 x Tarjeta de procesamiento NVidia Tesla C1060, 4 GDDR3 RAM, 240 núcleos c/u (960 núcleos en total). 2 x Procesador Intel® Xeon E5620 ; 2,40 GHz, 12 MB cache, 1333FSB, simultaneous multithreading (Tecnología Intel® HyperThreading), Tecnología Intel® Turbo Boost. 24 GB RAM DDR3 1333MHz ECC, (4GB x 6), configuración en triple canal, hasta 192 GB de RAM. “Disco” duro de estado sólido (SSD, Solid State Drive) de 100 GB SSD OCZ Vertex Limited Edition, hasta 270 MB/s de lectura, 250 MB/s de escritura (235 MB/s sostenidos de escritura). Tarjeta de video NVidia Quadro FX 580, 512 MB GDDR3 RAM. Tarjeta madre con Chipset dual Intel® 5520, 36 líneas PCI-E 2.0 cada uno (72 total), 6.40 GT/s cada uno. 2 x Puertos de red Gigabit Intel® 82574L Chasis 4U torre/montable en armario, 8 bahías removibles de DD de 3,5″, 3 bahías de 5.25″, 1 bahía de 3.5″ , 4 ventiladores internos intercambiables en caliente, 2 ventiladores traseros intercambiables en caliente, fuente de poder de alta eficiencia redundante de 1400W. Saludos, Eduardo Noviembre 01, 2010
POR: EDUARDO8088 PRUEBAS DE CUDA - RENDER POR GPU TESLA - BUNKSPEED SHOT
Hola, En los últimos dos meses empezamos a probar una tecnología basada en procesamiento por GPU. Su nombre es CUDA y es desarrollada por NVidia. NVida tiene tarjetas dedicadas únicamente a procesamiento por GPU, tarjetas TESLA, así que decidimos comprar un computador con cuatro de ellas para ver qué tal funciona. El computador lo llamamos “Tesla” (no muy original, pero práctico) y esta es una de las primeras pruebas . La configuración es la siguiente: 4 tarjetas GPU NVidia Tesla C1060 4GB, 2 procesadores Xeon E5620 (16 hilos de procesamiento en total), 24 GB DDR3 ECC RAM Tripple channel, Drive de estado sólido de 100 GB OCZ Vertex SSD,Fuente de poder redundante de 1400W, chasis de torre, Windows 7 Ultimate 64 bit. Puesto que nosotros nos dedicamos principalmente a la industria del 3D y la posproducción de video, decidimos hacer varias pruebas usando algunas aplicaciones de render por GPU disponibles en el mercado. Empezamos por Bunkspeed Shot, una aplicación independiente basada en iray, el motor de render por GPU de Mental Images, mejor conocido por su motor de render Mentalray. En la prueba jugamos un poco con un modelo de prueba del programa, manipulándolo en el visor y luego cambiando los materiales en tiempo real para ver cómo se comportaba. Por último cambiamos la resolución para ajuste a la panalla (1280 x 768) tratando de exigirle más a las tarjetas Tesla. El desempeño parce muy bueno, sin embargo, el software no usa toda la capacidad disponible tanto de las CPU como de las GPU. Estamos mirando cómo podemos hacer que las tarjetas se acerquen al 100%, ¡así que estén pendientes a ver qué sucede! Les dejo el video para que juzguen por ustedes mismos cómo salió la prueba (¡no olviden cambiar la calidad a 720p HD para ver todos los detalles de la prueba!) Saludos, Eduardo.
Noviembre 01, 2010
POR: EDUARDO8088 BIENVENIDOS AL BLOG DE 8088.net
Hola, En este blog vamos a poner todas las pruebas que realizemos en nuestras investigaciones con el hardware y el software de alto desempeño que manejamos en nuestra empresa. La idea es mostrar cómo se comportan nuestras máquinas en el mundo real, los números detrás de las especificaciones. Pueden hacer las preguntas generales en este post. ¡Estén pendientes! Saludos, Eduardo
Noviembre 01, 2010
Hicimos unas pruebas con USB 3.0 y como siempre, probamos para saber los números reales -no confiamos en la especificaciones de lo fabricantes-. Vamos a comparar dos modelos diferentes de tarejtas USB 3.0 usando un disco duro externo RAID para poder tener un disco muy rápido que no sea un factor limitante en las pruebas. El programa para las pruebas es Crystal Disk Mark 3.0.0 x64 (http://crystalmark.info/?lang=en). Hice 29 réplicas de una prueba de 2 GB para cada tarjeta y las comparé usando la prueba estadística no paramétrica de Mann-Whitney (α 0.05000, N=29) y gráficas de los datos. El montaje de la prueba es: Procesador: Dual Xeon E5420, 2,5 Ghz, 12 MB cache, 1333 FSB RAM: 8 GB RAM DDR2 ECC 667MHz Disco de sistema: Seagate ES.2 ST3500320NS, 7200 rpm, 500 GB Video: NVidia GeForce GT430, 1GB Board: De servidor, socket dual, chipset Intel 5100, 6 puertos SATA2 (3 Gbps) via controlador ICH9R SB Fuente: Real 500W alta eficiencia HEC Sistema operativo: Windows 7 Ultimate 64bit, ingles Disco de prueba: Disco externo LaCie 2big USB 3.0, RAID0 2 discos duros, 2 TB total. Tarjeta de prueba 1: Adaptador de 2 puesrtos LaCie PCIe x4, USB 3.0. NEC µPD720200 chip Tarjeta de prueba 2: Adaptador de 2 puertos Asus U3S6 MG990T-C PCI-E x4, USB 3.0 + SATA 6Gb/s 2 puertos RESULTADOS: POR: EDUARDO8088 PRUEBAS CON USB 3.0 - COMPARACIÓN ENTRE TARJETAS LACIE Y ASUS
Figura 1. Velocidad de transferencia de lectura de dos tarjetas USB 3.0. 29 réplicas de 2000 MB c/u. Barras de error son error estándar de la media.
Figura 2. Velocidad de transferencia de escritura de dos tarjetas USB 3.0. 29 réplicas de 2000 MB c/u. Barras de error son error estándar de la media. Para la velocidad de lectura, hay diferencias significativas (p-valor=0.00001, U=137, rechaza que las dos muestras provienen de la misma distribución). Sabiendo que ambas tarjetas son significativamente diferentes, una simple inspección visual de la figura 1 revela que la tarjeta LaCie tiene más desempeño que la asus: el área bajo la línea de la tarjeta LaCie (línea azul) es mayor que la de la Asus (línea Roja). CONCLUSIÓN La tarjeta LaCie se desempeña mejor que la tarjeta Asus. Sospecho que puede ser debido en parte a que la tarjeta Asus también tiene un controlador SATA 6 Gb/s, lo que agrega pasos adicionales internos para el manejo del ancho de banda. Por cierto, el promedio de la tasa de transferencia de lectura de la tarjeta LaCie es 226.004 MB/s y el de escritura es 154.186 MB/s. A pesar de que estos números sólo son válidos para el principio del disco, son muy similares a la transferencia de un disco eSATA, haciendo USB 3.0 un buen substituto para eSATA con la ventaja de que son más baratos y puedes conectarlos en un puerto USB 2.0 en caso de ser necesrio. Tendremos que hacer una prueba para confirmar esta apreciación. Saludos, Eduardo
Abril 11, 2011
POR: EDUARDO8088 DESEMPEÑO CUDA SETI@HOME
Hola, Esta es una comparación muy simple del desempeño entre dos de nuestros computadores: El supercomputador con 4 tarjetas Nvidia Tesla (http://www.8088.net/blog/index.php/2010/11/01/especificaciones-del-supercomputador-multi-gpu-tesla/) y uno con 2 Quad Xeon 5420 + 1 Nvidia 8500GT SETI@Home es un proyecto de computación distribuida que busca inteligencia extraterrestre analizando señales grabadas en el radio telescopio de Arecibo, distribuyendo ese análisis en computadores caseros a través de Internet. Más información en: http://setiathome.berkeley.edu/
Figura 1. Créditos obtenidos durante 15 días por un computador con 2 Xeon Quad 5420 + 1 Nvidia 8500GT
Figura 2. Créditos obtenidos durante 15 días por un computador con 2 Xeon 5620 + 4 Nvidia Tesla C1060 SETI@Home da puntos (créditos) por cada tarea de procesamiento completada y validada. Las gráficas de arriba muestran cuantos créditos fueron asignados a cada máquina durante dos semanas. Entre el 20 de ago. y el 6 de sep. SETI tenía problemas en sus servidores y la descarga de tareas era lenta, aún así, la máquina Tesla acumuló más del doble de créditos que el Quad Xeon. Después del 6 de sep, ambas máquinas descargaron tareas normalmente y la diferencia fue enorme, la Tesla procesó mucho más que el Quad Xeon. Desafortunadamente la prueba tuvo que ser detenida después de 15 días debido al la cuenta de electricidad de los 850W que consume el computador Tesla cuando está casi al 100%. Saludos, Eduardo Abril 08, 2011
POR: EDUARDO8088 COMPARACIÓN DE IOps: DRIVE DE ESTADO SÓLIDO (SSD) VS. 15000 VS. 7200 VS. 5900 VS. 5600 rpm Hola, En esta prueba vamos a comparar las operaciones de entrada/salida por segundo (IOps) entre varios discos duros que teníamos a la mano: tres discos SAS de 15000 rpm, uno SATA de 7200 rpm, uno SATA de 5900 rpm, uno SATA de 5600 rpm y un drive de estado sóldio SATA empresarial. Para ir a la gráfica de comparación directamente haz clic aquí. Comparar discos duros no sólo es importante en cuanto a los MB/s que pueden transferir, también es importante saber cuantas operaciones por segundo (IOps) son capces de realizar, es decir, cuantas veces por segundo pueden escribir o leer datos. Este parámetro es muy importante para equipos que reciben muchas solicitudes en un momento dado, por ejemplo, para computadores sobre los que funcionan bases de datos, pues estos tienen que leer y escribir muchos paquetes pequeños de información en un momento dado. Para darles un ejemplo más cotidiano de lo importante que son las IOps, piensen en que van a copiar una película AVI de 2 GB y que luego van a copiar una carpeta de fotos que ocupa 2 GB tambien. La película copiará a la velocidad máxima del disco duro, por decir algo, 100 MB/s, y tardará 20.5 segundos en copiar; mientras que las fotos copiaran a 12 MB/s y tardarán casi 3 minutos en copiar. Pueden intentarlo en sus computadores y se darán cuenta de la gran diferencia que hay entre copiar una y otra cosa. ¿Cuál es la diferencia en el ejemplo anterior si ambos ocupan el mismo tamaño? En términos muy sencillos (y gruesos), es que para copiar la película la cabeza del disco duro sólo tiene que leer una vez la posición del archivo y luego copiar su contenido, se realizan dos operaciones. Para copiar las fotos tiene que leer la posición de cada una y luego copiar su contenido; si cada foto es de 1,5 MB, en 2 Gb habrían más de 1500 fotos, entonces serían más de 3000 operaciones. En cada operación la cabeza tarda un cierto tiempo en completar la tarea y eso se ve reflejado en que la velocidad de lectura y escritura disminuyan. Una característica que determina cuantas IOps puede realizar un disco duro es la velocidad a la que gira. Un disco de computador de escritorio para el hogar gira a 7200 rpm, 5400 rpm o 5600 rpm, mientras que un disco duro empresarial gira a 15000 o 10000 rpm. Girar más rápido hace que debajo de la cabeza del disco pasen más sectores en menos tiempo, por eso pueden hacer mas IOps, esto también los hace más costosos y además tienen una interfaz diferente, llama SAS (Serial Attached SCSI), el estándar actual para discos de servidor. Con el desarrollo de chips de memoria no volátil (que no se borra al quitar la corriente eléctrica) más rápidos, de más capacidad y más confiables, se empezaron a ofrecer en el mercado dispositivos de almacenamiento con las interfaces de los discos duros, pero en vez de discos había chips de memoria. Llamados en inglés Solid State Drive, hace un par de años tenían un precio muy alto, de varios miles de dólares, pero con velocidades que superaban a sus contrapartes mecánicas, lo que hizo que las ventas crecieran y los precios bajaran con el tiempo. En un principio había problemas con la vida útil de los sectores de los chips de memoria, que tienen un número limitado de escrituras/lecturas, pero hoy en día los controladores internos tienen algoritmos para nivelar el uso de cada sector de modo que el tiempo medio antes de una falla (MTBF) es tanto o más que un disco duro, además su precio ha bajado considerablemente (al rango de cientos de dólares) y las velocidades han aumentado. Si bien, en cuanto a MB/s los SSD superan por más del doble a los discos duros (próximamente publicaremos pruebas de eso también), en cuanto a IOps los resultados son aán más sorprendentes. Para tener números concretos acerca de qué tantas IOps puede realizar un SSD respecto a un disco duro, realizamos una prueba con IOmeter usando un perfil de configuración tomado del un post del foro Commuties de VMWare(http://communities.vmware.com/thread/73745), para que fuera comparable con otros resultados. CONDICIONES DE LA PRUEBA La prueba simula condiciones de la vida real de acceso a una base de datos, con una transferencia por petición de 8 kB, 35% de operaciones secuenciales y 65% de aleatorias; 35% de escrituras y 65% de lecturas y 64 comandos en cola (outstanding IOps). La prueba corre por 5 minutos y se repitió 6 veces por disco, se sacó un promedio y se calculó el error estándar de la media para hacer la gráfica. Adicionalmente la prueba se realizó sobre el último 10% de los discos (y del SSD), pues se trata del área más lenta, lo que la convierte en el factor limitante del desempeño y un dato representativo (y más real) del comportamiento de los discos en una condición crítica, esto es, con muy poco espacio libre. Los discos a comparar son: 1. Seagate Cheetah 15k.5 ST373455SS, SAS 3Gb/s, 15000 rpm, 16 MB cache, 74 GB. 2. Fujitsu MAX3147RC, SAS 3Gb/s, 15000 rpm, 16 MB cache, 146 GB. 3. Seagate Cheetah 10T ST3300555SS, SAS 3Gb/s, 15000 rpm, 16 MB cache, 300 GB. 4. Seagate Barracuda ES.2 ST31000640SS, SATA 3 Gb/s, 7200 rpm, 16 MB cache, 1TB. 5. Seagate Barracuda ES.2 ST3500320NS, SATA 3Gb/s, 7200 rpm, 32MB cache, 500GB. 6. Seagate Barracuda 7200.12 ST31000528AS, SATA 3Gb/s, 7200 rpm, 32MB cache, 1TB. 7. Seagate Barracuda LP ST32000542AS, SATA 3Gb/s, 5900 rpm, 32MB cache, 2TB. 8. Hitachi Deskstar 5K1000 HDS5C1010CLA382, SATA 3 Gb/s, 5600 rpm, 8 MB cache, 1 TB. 9. SuperTalent Technology TeraDrive CT FTM12CT25H , SATA 3Gb/s, SSD, 120G. Los tres primeros son discos empresariales SAS, el cuarto y el quinto son discos SATA empresariales, el sexto es un disco SATA para computador de escritorio de alto desempeño, el séptimo y el octavo son para computador casero y el último es un drive de estado sólido empresarial. El sistema donde se desarrolló la prueba tiene las siguientes especificaciones: -2 x Procesador Intel® Xeon E5620 ; 2,40 GHz, 12 MB cache, 1333FSB, Tecnología Intel® HyperThreading, Tecnología Intel® Turbo Boost. -24 GB RAM DDR3 1333MHz ECC, (4GB x 6), configuración en triple canal. -Drive de de estado sólido (SSD, Solid State Drive) de 80 GB Intel X25M SSDSA2M080G2GC para el sistema operativo. -Tarjeta controladora SAS/SATA 6Gb/s, PCI-E 2.0 x8, HighPoint RocketRaid 2720 de 8 puertos. -Tarjeta de video NVidia GeForce 7300 GT. -Tarjeta madre con Chipset dual Intel® 5520, 36 líneas PCI-E 2.0 cada uno (72 total), 6.40 GT/s cada uno. -2 x Puertos de red Gigabit Intel® 82574L. -Chasis 4U torre/montable en armario, fuente de poder de alta eficiencia redundante de 1400W. -Windows 7 Ultimate de 64bit en inglés. Bueno, ahora sí, dejemos que la gráfica hable por si misma:
Gráfica de comparación de media de IOps La diferencia entre los discos duros y el SSD es tan grande que tuve que agregar los valores sobre las barras para que se pudieran apreciar mejor las diferencias con los discos. Si bien no se trata de una prueba estadística rigurosa, es suficiente para ilustrar que las diferencias son abismales. El SSD puede hacer entre 18.5 a 21.6 veces más IOps que un disco de 15000 rpm SAS, pero ambos tienen costos similares para este caso. Nada más imagínense varios de estos SSD en RAID. El valor de IOps tan diferente entre discos duros y SSD se debe a que el SSD tiene un controlador que necesita muy poco tiempo para ubicar dirección de memoria donde está ubicada la información en el chip, entonces, mientras la cabeza del disco duro hace una operación, esto es flotar sobre el disco y ubicarse en la posición correcta, el controlador del SSD hace 20 operaciones, simplemente ubica en forma electrónica una fila y una columna en el chip de memoria, una operación mucho más rápida. Esta tecnología está en desarrollo muy activo, por lo que podemos esperar un aumento de desempeño de los SSD en los próximos años, especialmente porque el ancho de banda de la interfaz también va en aumento. Ya tenemos SAS/SATA de 6 Gb/s y el de 9 Gb/s está por venir; un ancho de banda muy amplio para crecer. También hay que esperar qué otras respuestas producen los fabricantes de discos duros. Ya empezaron con los discos duros híbridos, pero con esas diferencias tan grandes y la caída de precios de los SSD, es difícil pensar en que los discos duros van a mantenerse por mucho tiempo liderando el mercado. Como dato adicional, varias de nuestras estaciones de trabajo nuevas para alquilar están saliendo con el SSD de esta prueba para el sistema operativo, así los tiempos de respuesta de Windows y de los programas se disminuyen notablemente. También tenemos un cliente con un servidor con una base de datos montada sobre tres arreglos de SSD en espejo (3 RAID1) funcionando con éxito y batiendo al sistema con discos SAS de 15k rpm que tenían. Estén pendientes de más pruebas. Saludos, Eduardo
Diciembre14, 2010
ESPECIFICACIONES DEL SUPERCOMPUTADOR MULTI GPU TESLA
Hola, Quiero mostrarles a todos una foto y las especificaciones de nuestro supercomputador de prueba CUDA, multi GPU TESLA (clic para agrandar):
Las cuatro tarjetas prominentes son cuatro procesadores computacionales GPU NVidia TESLA C1060, que pueden ser consideradas tarjetas de video ciegas con mucha RAM para procesar datos, no para video juegos; también pueden ver dos disipadores de calor bajo los cuales hay en cada uno un procesador Intel® Xeon E5620 (2,40 GHz, 12 MB cache, 1333FSB), 4 núcleos, 8 hilos c/u, 16 hilos en total; por último, hay cuatro ventiladores del sistema grandes intercambiables en caliente; todo esto en un chasis de torre 4U montable en armario. Esta máquina fue la usada en nuestro post anterior: CUDA Tests – GPU render – Bunkspeed Shot Las especificacones (casi) completas son: 4 x Tarjeta de procesamiento NVidia Tesla C1060, 4 GDDR3 RAM, 240 núcleos c/u (960 núcleos en total). 2 x Procesador Intel® Xeon E5620 ; 2,40 GHz, 12 MB cache, 1333FSB, simultaneous multithreading (Tecnología Intel® HyperThreading), Tecnología Intel® Turbo Boost. 24 GB RAM DDR3 1333MHz ECC, (4GB x 6), configuración en triple canal, hasta 192 GB de RAM. “Disco” duro de estado sólido (SSD, Solid State Drive) de 100 GB SSD OCZ Vertex Limited Edition, hasta 270 MB/s de lectura, 250 MB/s de escritura (235 MB/s sostenidos de escritura). Tarjeta de video NVidia Quadro FX 580, 512 MB GDDR3 RAM. Tarjeta madre con Chipset dual Intel® 5520, 36 líneas PCI-E 2.0 cada uno (72 total), 6.40 GT/s cada uno. 2 x Puertos de red Gigabit Intel® 82574L Chasis 4U torre/montable en armario, 8 bahías removibles de DD de 3,5″, 3 bahías de 5.25″, 1 bahía de 3.5″ , 4 ventiladores internos intercambiables en caliente, 2 ventiladores traseros intercambiables en caliente, fuente de poder de alta eficiencia redundante de 1400W. Saludos, Eduardo Noviembre 01, 2010
POR: EDUARDO8088 PRUEBAS DE CUDA - RENDER POR GPU TESLA - BUNKSPEED SHOT
Hola, En los últimos dos meses empezamos a probar una tecnología basada en procesamiento por GPU. Su nombre es CUDA y es desarrollada por NVidia. NVida tiene tarjetas dedicadas únicamente a procesamiento por GPU, tarjetas TESLA, así que decidimos comprar un computador con cuatro de ellas para ver qué tal funciona. El computador lo llamamos “Tesla” (no muy original, pero práctico) y esta es una de las primeras pruebas . La configuración es la siguiente: 4 tarjetas GPU NVidia Tesla C1060 4GB, 2 procesadores Xeon E5620 (16 hilos de procesamiento en total), 24 GB DDR3 ECC RAM Tripple channel, Drive de estado sólido de 100 GB OCZ Vertex SSD,Fuente de poder redundante de 1400W, chasis de torre, Windows 7 Ultimate 64 bit. Puesto que nosotros nos dedicamos principalmente a la industria del 3D y la posproducción de video, decidimos hacer varias pruebas usando algunas aplicaciones de render por GPU disponibles en el mercado. Empezamos por Bunkspeed Shot, una aplicación independiente basada en iray, el motor de render por GPU de Mental Images, mejor conocido por su motor de render Mentalray. En la prueba jugamos un poco con un modelo de prueba del programa, manipulándolo en el visor y luego cambiando los materiales en tiempo real para ver cómo se comportaba. Por último cambiamos la resolución para ajuste a la panalla (1280 x 768) tratando de exigirle más a las tarjetas Tesla. El desempeño parce muy bueno, sin embargo, el software no usa toda la capacidad disponible tanto de las CPU como de las GPU. Estamos mirando cómo podemos hacer que las tarjetas se acerquen al 100%, ¡así que estén pendientes a ver qué sucede! Les dejo el video para que juzguen por ustedes mismos cómo salió la prueba (¡no olviden cambiar la calidad a 720p HD para ver todos los detalles de la prueba!) Saludos, Eduardo.
Noviembre 01, 2010
POR: EDUARDO8088 BIENVENIDOS AL BLOG DE 8088.net
Hola, En este blog vamos a poner todas las pruebas que realizemos en nuestras investigaciones con el hardware y el software de alto desempeño que manejamos en nuestra empresa. La idea es mostrar cómo se comportan nuestras máquinas en el mundo real, los números detrás de las especificaciones. Pueden hacer las preguntas generales en este post. ¡Estén pendientes! Saludos, Eduardo Noviembre 01, 2010