Como hacer un big data

Inicio » Como hacer un big data

Como hacer un big data

Big data de código abierto

El uso actual del término big data tiende a referirse al uso de la analítica predictiva, la analítica del comportamiento del usuario o algunos otros métodos avanzados de análisis de datos que extraen valor de los big data, y rara vez a un tamaño concreto del conjunto de datos. «Hay pocas dudas de que las cantidades de datos disponibles ahora son realmente grandes, pero esa no es la característica más relevante de este nuevo ecosistema de datos»[4].

El tamaño y el número de conjuntos de datos disponibles han crecido rápidamente a medida que los datos son recogidos por dispositivos como los móviles, los baratos y numerosos dispositivos de detección de información del Internet de las cosas, los aéreos (teledetección), los registros de software, las cámaras, los micrófonos, los lectores de identificación por radiofrecuencia (RFID) y las redes de sensores inalámbricos. [9][10] La capacidad tecnológica per cápita del mundo para almacenar información se ha duplicado aproximadamente cada 40 meses desde la década de 1980;[11] en 2012 [actualización], cada día se generaban 2,5 exabytes (2,5×260 bytes) de datos[12] Según la predicción de un informe de IDC, se preveía que el volumen mundial de datos crecería exponencialmente de 4,4 zettabytes a 44 zettabytes entre 2013 y 2020. Para 2025, IDC predice que habrá 163 zettabytes de datos[13]. Una cuestión que se plantea a las grandes empresas es determinar quién debe ser el propietario de las iniciativas de big data que afectan a toda la organización[14].

Diseño de sistemas de big data

Las aplicaciones de big data se están convirtiendo en una fuerza importante en muchos sectores. La empresa de tecnología sanitaria Cerner trabaja con los médicos para diagnosticar con mayor precisión las infecciones del torrente sanguíneo potencialmente mortales. La empresa de software de gestión agrícola FarmLogs se basa en el análisis en tiempo real para mejorar las condiciones de cultivo, la salud vegetativa y el rendimiento de las cosechas. El sitio de citas en línea eHarmony analiza la información personal con el objetivo de hacer la pareja adecuada.

Gracias a estas aplicaciones, la tecnología de big data está de moda: la empresa de estudios de mercado International Data Corporation (IDC) prevé una tasa de crecimiento anual compuesta del 26,4% y unos ingresos de 41.500 millones de dólares en 2018. Como prueba del importante impacto del big data, ese aumento es unas seis veces superior al del mercado global de las tecnologías de la información (TI), que crece un 3,8% en 2015, según IDC.

A pesar de todo el Hadoopla, las empresas descubren que las implantaciones de big data suelen estar plagadas de posibles escollos. Estas aplicaciones no siguen el típico proceso de despliegue, por lo que los desarrolladores deben pensar y actuar de forma innovadora. Los costes iniciales de despliegue pueden ser elevados y el retorno de la inversión (ROI) puede ser amorfo, por lo que poner en marcha un nuevo proyecto puede ser todo un reto. Trabajar con enormes volúmenes de datos significa que los programadores deben protegerse de posibles problemas de rendimiento.

Herramientas de big data

En los últimos cinco años, se ha comprendido cada vez mejor el papel que pueden desempeñar los macrodatos a la hora de proporcionar información de valor incalculable a una organización, revelando sus puntos fuertes y débiles y permitiendo a las empresas mejorar sus prácticas. Los macrodatos no tienen una agenda, no juzgan y no son partidistas: simplemente revelan una instantánea de la actividad.

Sin embargo, aunque muchas organizaciones comprenden la importancia de los datos, muy pocas ven todavía su impacto. Un nuevo estudio titulado Broken Links: Why analytics have yet to pay off (Enlaces rotos: por qué la analítica aún no ha dado sus frutos) afirma que el 70% de los ejecutivos de las empresas reconocen la importancia de la analítica de ventas y marketing, pero sólo el 2% afirma que su analítica ha logrado un impacto amplio y positivo. Este hallazgo apunta a la necesidad de que el Big Data sea manejado por empresas subcontratadas que se especialicen en el análisis de los datos generados por las empresas y que puedan ofrecer perspectivas reales y procesables. En el prólogo de su informe, Dan Weatherill escribe que «Nuestra encuesta y las entrevistas de seguimiento realizadas a casi 450 altos ejecutivos con sede en Estados Unidos de sectores como el farmacéutico, los dispositivos médicos, la informática, los servicios financieros, las telecomunicaciones y los viajes y la hostelería confirmaron una cosa que ya sabíamos: pocas organizaciones han sido capaces de acertar y de generar el tipo de impacto empresarial que esperaban».

Tutorial de big data

Los big data están presentes en todas las investigaciones, y los conjuntos de datos son cada vez más grandes y difíciles de manejar. Desgraciadamente, dice Tracy Teal, se trata de un tipo de trabajo que con demasiada frecuencia queda fuera de la formación científica.

«Es una mentalidad», dice Teal, «tratar los datos como un ciudadano de primera clase». Ella debería saberlo: Teal era hasta el mes pasado la directora ejecutiva de The Carpentries, una organización de Oakland (California) que enseña habilidades de codificación y datos a investigadores de todo el mundo. Dice que la comunidad investigadora tiende a desestimar el tiempo y el esfuerzo necesarios para gestionar y compartir los datos, y a no considerarlos una parte real de la ciencia. Pero, sugiere, «podemos cambiar nuestra mentalidad para valorar ese trabajo como parte del proceso de investigación», en lugar de tratarlo como algo secundario.

«Mantenga los datos en bruto: no los manipule sin tener una copia», dice Teal. Recomienda almacenar los datos en algún lugar que cree copias de seguridad automáticas y al que puedan acceder otros miembros del laboratorio, al tiempo que se respetan las normas de la institución sobre el consentimiento y la privacidad de los datos.

Scroll al inicio
Ir arriba