Contenido
Big Data
Se piensa que el termino de Big Data tiene que ver únicamente con utilizar grandes cantidades de información y de cierta forma es verdad, pero es solo una parte de la ecuación, pues se deben considerar otros elementos para identificarlo como Big Data, principalmente se aplica a la información proveniente de las redes sociales.
Este concepto es relativamente nuevo y Gartner en el 2001 hizo la definición más acercada a la realidad: Big data son datos que contienen una mayor variedad y que se presentan en volúmenes crecientes y a una velocidad superior, como resultado de esta definición es que el Big Data se le delimita por «las tres V», volumen, variedad y velocidad, antes de explicar estas V es necesario definir otros dos conceptos, datos estructurados y no estructurados.
Datos Estructurados.
Como su nombre lo indica son datos que tienen una estructura reconocible, definida por un nombre de encabezado que describe el dato que contiene, su estructura es de filas y columnas, un ejemplo muy claro de esta información se encuentra en las bases de datos de los sistemas de facturación o de cualquier sistema de gestión empresarial, es probable que la mayoría de las personas trabajen con este tipo de información.
Datos No Estructurados.
Su característica principal es que no poseen una estructura mediante la cual se facilite la identificación del dato que contiene, se trata de un conjunto de información que debe ser identificada y organizada, algunos ejemplos de este tipo de información son: Archivos PDF, Documentos de Word, publicaciones en redes sociales, mensajes de texto.
Las Tres o Cinco V del Big Data.
Regresando al detalle de las tres V, entendemos que una de las grandes ventajas del Big data es que tiene la capacidad de poder leer datos no estructurados, a continuación, se explica cada una de las V.
- Volumen. Con big data somos capaces de leer, extraer y almacenar la información que se genera en las redes sociales, ¿puedes imaginarte el gran volumen de información que debe soportar?, además de que debemos considerar que podemos conjuntar datos estructurados y no estructurados, por lo que, en resumen, esta característica establece que una de sus características es que debe soportar grandes cantidades de información, estructurada y no estructurada.
- Variedad. Al tener la capacidad de procesar datos estructurados y no estructurados se abre todo un abanico de posibilidades, desde posts en redes sociales, likes, correos electrónicos, ventas de los sistemas de facturación e incluso ahora que está creciendo el internet de las cosas, IoT por sus iniciales en inglés, con big data podemos obtener información de los sensores de todos estos dispositivos.
- Velocidad. Usualmente el enfoque del Big Data es que sea utilizado en tiempo real, por lo que el flujo de información es más constante y los procesos de actualización más cortos y debido a la gran cantidad de información que debe manejar la velocidad es pieza clave.
Adicionalmente a estas tres V con forme se avanza en la exploración de este término se han agregado mas V a la definición, tal como:
- Veracidad. Básicamente hace referencia a la calidad de los datos, como todo proyecto de ciencia de datos la calidad de estos es crucial.
- Variabilidad. Haciendo referencia a las redes sociales, las tendencias cambian de un día para otro, por lo que de alguna forma los datos son impredecibles y pueden variar rápidamente.
Importancia del Big Data.
En años anteriores la televisión, la radio, periódicos y revistas eran los principales medios por los cuales las empresas podían dar a conocer sus productos y servicios y llegar a sus potenciales clientes, limitando ese medio a las compañías que tuvieran el suficiente musculo financiero para poder soportar la inversión que esto significaba, que dicho sea de paso no era para nada económico, pero ahora ese mundo quedó en el pasado, gracias a las redes sociales y plataformas digitales ahora todos tenemos la oportunidad de crear audiencias o tribus para dar a conocer nuestros servicios y no solo esto, además se nos abre todo un mundo de posibilidad para interactuar directamente con las personas, saber lo que piensan de la marca, escuchar lo que necesitan, proveer de valor etc.
A todo esto, que tiene que ver el Big Data, bueno pues tiene que ver todo, toda esta interacción que se realiza mediante las redes sociales y las plataformas digitales generan millones y millones de datos que son almacenados en algún sitio, por ejemplo, en los servidores de Facebook, cuando le das «me gusta» a una publicación, cuando compartes etc. toda esa información se almacena para que después pueda ser explotada, además de las redes sociales existen aparatos electrónicos que generan información a través de sensores, toda esta información también puede ser aprovechada mediante el Big Data.
Considerando todos estos puntos resaltamos la importancia del Big Data, pues mediante distintas técnicas de exploración y manipulación de datos y con software especializado se logra aprovechar y explotar toda esta información.
Agregando algunos números a la importancia del Big Data, la revista Forbes realizó un estudio en el cual determinó que el 92 % de las compañías que encuestaron y que utilizan Big Data cumplieron o excedieron sus metas y el 70% reportaron que pudieron detectar efectivamente su audiencia.
Big Data ejemplos en el mundo real.
Elecciones Presidenciales 2016 de Estados Unidos de América.
¿Saben cuál fue una de las estrategias que utilizó Donald Trump para ganar las elecciones presidenciales del 2016 en Estados Unidos de América? Utilizó las redes sociales para su cometido y como saben le salió muy bien.
Usualmente se utiliza el Big Data en las campañas políticas basado en datos demográficos de la población, sin embargo, la campaña de Donald Trump se basó en perfiles de personalidad creados por Cambridge Analítica, la empresa calificó a las personas 5 tipos de personalidad basándose en los siguientes criterios: Apertura, Conciencia, Extraversión, Afabilidad y Neuroticismo. Una vez teniendo definidos estos perfiles de personalidad se construyeron anuncios para dirigirse específicamente a cada votante para ser influenciado políticamente, acorde al tipo de personalidad del votante el anuncio tenía cierta información e imágenes.
Otro ejemplo de cómo se utilizó Big Data fue determinando que mítines políticos debía de atender, ya que no es posible que un candidato asista a todas partes del país, con Big Data priorizaron aquellos estados y ciudades relevantes.
Por otro lado, hablando en términos comerciales, actualmente el Big Data se está utilizando para acelerar la adquisición y retención de clientes, obteniendo información de las personas se identifican patrones y tendencias, analizando los comportamientos de los clientes para generar lealtad.
Herramientas o software para Big data.
Big data tiene la característica de manejar grandes volúmenes de información además de poder leer información estructurada y no estructurada, pero en gran medida la información que se extrae de redes sociales es información no estructurada por lo que se necesitan herramientas especializadas, que sean capases de procesar esta información compleja, a continuación, puedes encontrar herramientas que puedes utilizar:
Apache Hadoop
Al hablar de Apache Hadoop se define como un ecosistema, pues se compone de distintas herramientas que nos permiten procesas grandes cantidades de datos que van desde gigabytes hasta petabytes de datos, una de sus características es que, en lugar de usar una computadora para procesar los datos, permite agrupar varias computadoras para analizar conjuntos de datos en paralelo más rápidamente.
Hadoop cuenta con distintas herramientas las cuales permiten realizar la extracción de datos, limpieza, integración de datos de distintas fuentes, por ejemplo:
- Spark: Con este sistema se procesa información almacenándola en memoria y la ejecución optimizada para un rendimiento rápido.
- Presto: Es un motor de consultas en lenguaje SQL (Lenguaje de Consulta Estructurado), el cual puede procesar información de múltiples fuentes de datos.
- Hive: Permite a los usuarios realizar análisis a gran escala, además de almacenamiento de datos distribuidos.
- Hbase: Es un repositorio para almacenar información, tiene la capacidad de poder almacenar datos en tiempo real y almacenar millones y millones de filas y columnas.
Mongo DB.
Esta es una herramienta de base de datos, se le denomina NoSQL porque soporta datos no estructurados. Es flexible y puede particionar los datos fácilmente entre servidores conectados entre sí.
Cassandra.
Al igual que Mongo, Cassandra se trata de una herramienta de base de datos que nos permite administrar datos, principalmente proceso datos estructurados.
RapidMiner.
Esta es una herramienta multi plataforma que ofrece un ambiente integrado para aplicar ciencia de datos, machine learning y análisis predictivo, con esta herramienta se puede realizar la extracción de datos, aprendizaje automático y aprendizaje profundo.
Las herramientas listadas anteriormente son las más utilizadas dentro del mundo de Big Data, siendo Hadoop la más popular para implementar proyectos de Big Data.