1

Big Data más rápida gracias a API de Alluxio

La API acelera los vínculos dentro los app y el almacenamiento para hacer más ágil el procesamiento de big data en la nube.

Alluxio, conocido originalmente como Tachyon, está dando a las aplicaciones de big data acceso unificado rápido para el almacenamiento donde residen sus datos.

Ahora bien, en la versión 1.0, Alluxio ofrece frameworks para Spark, MapReduce, Flink o Presto, con acceso a múltiples tipos de storage.

Proveedores servicios de nube como Amazon S3, Google Cloud Storage y OpenStack Swift son compatibles con la solución de Alluxio junto otros como EMC y NetApp.

Desde el exterior, Alluxio podría parecer como un sistema de almacenamiento en caché en memoria como Memcached o Redis.

En cambio, es una capa que se encuentra entre las aplicaciones de computación distribuida y el almacenamiento que da acceso desde la antigua a través de una API unificada.

Las aplicaciones pueden utilizar la API de Alluxio, que ofrece la mayor velocidad posible o pueden utilizar las API anteriores (una implementación HDFS, por ejemplo), que son más lentas pero – también – más compatibles.

Avances y expansión

En una entrada de blog publicada a principios de este mes, los ingenieros de Intel describieron cómo Alluxio contribuye a combatir algunos problemas comunes con los frameworks de big data, tales como el intercambio de datos entre apps.

En lugar de escribir datos en HDFS y leerlos de nuevo, los usuarios pueden escribir datos de la tienda Alluxio en memoria y releer con mucha mayor velocidad.

Del mismo modo, la recolección de basura de la JVM y los problemas on-heap de caché que se ven agravados en los marcos de proveedores como Spark pueden ser aliviados mediante el uso de Alluxio.

IBM ha afirmado que en los días de Tachyon, Alluxio superó HDFS en memoria de 110x para escrituras.

“Su implementación también mejora la latencia de extremo a extremo de un flujo de trabajo realista por 4x”, señaló.

Alluxio complementa otras soluciones; en Apache Arrow, por ejemplo, acelera el procesamiento de datos para ponerlos a disposición de una aplicación en un formato que se adapte a las CPU modernas.

Los datos solicitados por Arrow se han obtenido a partir de almacenamiento y son proporcionados por Alluxio.

En su encarnación Tachyon, Alluxio contó con el apoyo de una serie de proyectos de grandes volúmenes de datos existentes, siendo Spark el principal de ellos.

La compañía tiene previsto conseguir apoyos para la creación de otros proyectos de grandes volúmenes de datos, así como los proveedores de sistemas de almacenamiento.