27. 03. 2017

Big data, el algoritmo para los grandes volúmenes de datos

El poder de la información, innovación y productividad de las empresas

Se recaban datos en tierra, océanos, atmósfera, el espacio, incluso en el cuerpo humano, cada día se generan 1,700 billones de bytes por minuto, según un estudio realizado por la Unión Europea.

En un entorno de Inteligencia Empresarial (Business Intelligence, BI), por medio de la analítica de datos existentes en una empresa tradicional que no trate con altos volúmenes de datos, el origen de estos es mucho más reducido en número y tipo, es decir menor (volumen y variedad).

Además, la empresa suele tener más control sobre estos datos (velocidad de procesamiento), y un control más exhaustivo en la calidad de su información (veracidad).

 

¿Qué es Big data?

Se denomina Big data a la gestión y análisis de inmensos volúmenes de datos que no pueden ser tratados de forma convencional.

El motivo es que se necesitan herramientas específicas para su captura, gestión y procesamiento de datos, ya que de forma convencional sería imposible.

Al igual que los sistemas analíticos convencionales, el objetivo es convertir el dato en información de calidad para favorecer la toma de decisiones y todo esto en tiempo real.

De todas formas no es un concepto nuevo, ya que muchas empresas llevan décadas tratando con grandes volúmenes de datos utilizando Datawarehouse y herramientas específicas de análisis que les permite tratarlos.  Lo cual puede llevar a confusión y a tratar como Big Data entornos que no son propiamente de Big Data.

 

Las cuatro V del Big data

Las características que realmente definen lo que es Big data son las cuatro uves, que son Volumen, Velocidad, Variedad y Veracidad, a continuación las resumimos brevemente:

Volumen. A más volumen más datos, Big data requiere el procesamiento de altos volúmenes de baja densidad, datos de Hadoop que no están estructurados. Este tipo de datos son desconocidos como lo puede ser un mensaje de Facebook, tráfico de red, aplicaciones móviles, sensores que capturan datos, etc. El objetivo es capturar esos datos de Hadoop y convertirlo en información de calidad.

Velocidad. La Velocidad en la que ocurre todo y con la que se generan los datos, así como la velocidad en la que se captura, almacena y analizan los datos. Muchas aplicaciones de internet de las cosas (loT) tienen ramificaciones de estados y seguridad que requieren acciones en tiempo real y otros en real.

Variedad. Todos los días se generan cantidades de datos de múltiples fuentes y diferentes formatos, pueden ser estructurados por su longitud fija y formato predefinido como las bases de datos, y los no estructurados como lo pueden ser videos, correos electrónicos, redes sociales, y otros tantos datos que requieren de herramientas específicas y sobre todo de la capacidad de combinar unos y otros.

Veracidad. Se refiere a la veracidad y la calidad de los datos extraídos, verificando si tienen algún tipo de relación significativa al problema a analizar. Es de vital importancia en un proyecto Big data contar con un equipo imparcial que ayuden a mantener datos de valor evitando que los procesos no acumulen datos “sucios” en sus sistemas.

 

Capturar los datos de todos sus procesos y en tiempo real nunca resultado ser tan sencillo

Una buena opción a la hora de tratar el Big Data sería con herramientas para el análisis como Tableau junto con Cloudera (distribución líder Hadoop) y Splunk (solución líder en loT).

Tableau es  una plataforma de Inteligencia Empresarial que destaca por su fácil manejo e integración de diferentes tipos de datos, le ofrece una experiencia intuitiva, interactiva y en tiempo real que le permitirá encontrar las respuestas facilitando la toma de decisiones.

Tableau Cloud a diferencia de Tableau Desktop, es la herramienta perfecta para el análisis con la única diferencia de que está en la nube, de esta forma, podrá acceder desde cualquier lugar, desde diferentes dispositivos y en cualquier momento.

Tableau Server le permite acceder a la información desde cualquier lugar, conectándose a cualquier fuente de datos de manera segura, ya sean instalaciones físicas o en la nube.

Además,  podrá conectarse a bases de datos en la nube como Amazon Redshift y Google BigQuery, como también gestionar actualizaciones de sus datos de forma automática desde aplicaciones web como Google Analytics o Salesforce.

 

Más información:

Si necesita obtener más información sobre Big data, puede hacerlo visitando los respectivos enlaces o a través del siguiente formulario.

    ¿Conectamos?

    Envíanos un mensaje consultándonos tus dudas y trataremos de resolverlas en el menor tiempo posible