1

Google actualiza BigQuery y se fortalece para los usuarios de Hadoop

big-dataLa mejorada herramienta de gestión del Big Data del buscador permite ahora combinar los resultados de consultas de múltiples tablas de datos.

Con el objetivo de seguir atrayendo a los usuarios de Apache Hadoop a sus propios servicios de análisis de datos, Google ha anunciado una profunda actualización de BigQuery que ahora permitirá, entre otras mejoras, consultar múltiples tablas de datos al mismo tiempo.

“La unión de tablas de terabytes de datos ha sido tradicionalmente una tarea difícil para los analistas, ya que requiere sofisticadas habilidades de desarrollo de MapReduce, un hardware potente y mucho tiempo”, escribió Ju-kay Kwek, director de producto de BigQuery, en un entrada en el blog corporativo de Google. “Hoy, con BigQuery, se pueden obtener directamente ideas de negocio utilizando consultas tipo SQL, con mucho menos esfuerzo y a una velocidad mucho mayor de lo que antes se podía”.

Desde Google también han asegurado que el uso de BigQuery en lugar de una implementación al uso de Hadoop, la principal base de datos para grandes volúmenes de información, ahorrará dinero a los clientes ya que sólo se paga por las consultas que se procesan en lugar de por el coste TI de los componentes necesarios para incorporar Hadoop a las organizaciones.

Lanzado en 2010, BigQuery ha sido comercializado por Google como un servicio cloud para analizar grandes cantidades de datos. Con BigQuery, el usuario envía un conjunto de datos a Google tras lo cual puede consultar los resultados del análisis a través de la API BigQuery.

En este nueva versión, el principal lanzamiento es la ya mencionada capacidad de unir datos de varias tablas en una sola consulta mediante una nueva cláusula JOIN. Antes de esta actualización, BigQuery sólo podía trabajar con un conjunto de datos de menos de 8 MB de tamaño. La nueva cláusula no tiene límite en el tamaño de los datos.

Por otro lado, BigQuery incorpora nuevas capacidades con las que puede importar las marcas de tiempo de otros sistemas, así como los datos de fecha y hora de la consulta, así como agregar columnas a las tablas existentes y recibir correos electrónicos automáticos cuando se les ha dado acceso a un nuevo conjunto de datos.