IBM recientemente hizo públicas sus intenciones de desarrollar lo que será, una vez terminado, el conjunto de datos más grande del mundo, que consiste en 200.000 unidades de disco duro convencionales entrelazadas y trabajando juntas, sumando 120 petabytes de espacio de almacenamiento disponible. El contrato para esta matriz de datos masiva, 10 veces más grande que cualquier otro centro de datos en el mundo en la actualidad, fue ordenado por un cliente anónimo, cuyas intenciones aún no se han negado. IBM afirma que el enorme espacio de almacenamiento se utilizará para cálculos complejos, como los que se utilizan para modelar el tiempo y el clima.
Para poner las cosas en perspectiva, 120 petabytes, o 120 millones de gigabites, representarían 24 mil millones de archivos MP3 típicos de cinco megabytes o 60 descargas de todo Internet, que actualmente abarca 150 mil millones de páginas web. Y si bien 120 petabytes pueden parecer escandalosos hoy en día para cualquier estándar sensato, en poco tiempo, al ritmo que avanza la tecnología, podría volverse bastante común encontrar un centro de datos de tamaño similar en el futuro.
Este sistema de 120 petabytes está ahora en la franja lunática, pero en unos pocos años puede ser que todos los sistemas de computación en la nube sean como él, dice Hillsberg. Solo hacer un seguimiento de los nombres, tipos y otros atributos de los archivos almacenados en el sistema consumirá alrededor de dos petabytes de su capacidad.
Sé que algunos de ustedes, entusiastas de la tecnología, ya están rechinando un poco los dientes con estos números bastante dudosos. Sé que tengo 120 petabytes/200.000 es igual a 600 GB. ¿Significa esto que IBM está utilizando solo discos duros de 600 GB? Estoy dispuesto a apostar que no son tan baratos, sería extremadamente contraproducente en primer lugar. En primer lugar, vale la pena señalar que no estamos hablando de sus discos duros comerciales habituales. Lo más probable es que los discos duros utilizados sean del tipo de discos Fibre Channel de 15 000 rpm, como mínimo, que superen con creces a la unidad SATA que actualmente alimenta el almacenamiento de su computadora. Este tipo de discos duros actualmente no son tan voluminosos en almacenamiento como los SATA, por lo que esta podría ser una explicación. También está el problema de la redundancia que se encuentra en los centros de datos, que disminuye la cantidad de espacios de almacenamiento reales disponibles y aumenta a medida que el centro de datos es más grande. Por lo tanto, los discos duros utilizados podrían tener entre 1,5 y 3 TB, y todos funcionan con una velocidad de transferencia de datos de última generación.
Steve Conway, vicepresidente de investigación de la firma analista IDC que se especializa en computación de alto rendimiento (HPC), dice que el repositorio de IBM es significativamente más grande que los sistemas de almacenamiento anteriores. Una matriz de almacenamiento de 120 petabies sería fácilmente la más grande que he encontrado, dice.
Para albergar estos discos duros masivamente numerados, IBM los ubicó horizontalmente en cajones, como en cualquier otro centro de datos, pero amplió aún más estos espacios para acomodar más discos dentro de límites más pequeños. Los ingenieros también implementaron un nuevo mecanismo de respaldo de datos, mediante el cual la información de los discos moribundos se reproduce lentamente en una unidad de reemplazo, lo que permite que el sistema continúe funcionando sin ninguna ralentización. Además, un sistema llamado GPFS, mientras tanto, distribuye los archivos almacenados en varios discos, lo que permite que la máquina lea o escriba diferentes partes de un archivo determinado a la vez, mientras indexa toda su colección a velocidades vertiginosas.
El mes pasado, un equipo de IBM usó GPFS para indexar 10 mil millones de archivos en 43 minutos, rompiendo sin esfuerzo el récord anterior de mil millones de archivos escaneados en tres horas. Ahora, ¡eso es algo!
El acceso rápido a un gran almacenamiento es una necesidad crucial para las supercomputadoras, que necesitan enormes cantidades de bytes para calcular los diversos modelos complicados a los que están asignados, ya sean simulaciones meteorológicas o la decodificación del genoma humano. Por supuesto, se pueden usar, y lo más probable es que ya estén en su lugar, para almacenar identidades y datos biométricos humanos también. Aprovecho esta oportunidad para recordarles un hecho espantoso que publicamos hace un tiempo cada seis horas la NSA recopila datos del tamaño de la Biblioteca del Congreso.
A medida que la computación cuántica tome terreno y eventualmente se desarrolle la primera computadora cuántica, este tipo de centros de datos se volverán cada vez más comunes.
ACTUALIZACIÓN: De hecho, la instalación se inauguró en 2012.
Revisión de tecnología del MIT
"