Big data con excel

Inicio » Big data con excel

pivote de poder

Es un hecho obvio y conocido que los datos y el negocio van de la mano. No se puede gestionar uno sin afectar al otro. Y tanto si analizas los datos de un cliente como si utilizas los de tu empresa para tomar decisiones ejecutivas, tus herramientas tienen que ser capaces de gestionar las tareas que realizas con esa información.

Sin embargo, la parte complicada con la que probablemente luchas es saber cómo acceder y aplicar las funcionalidades adecuadas a tus datos. Pues bien, ha llegado el momento de dejar de luchar. En este post, te mostraré algunos consejos de Excel que puedes utilizar en cada una de las etapas del análisis de datos.

Con cada uno de los consejos para la limpieza de datos, aprenderás cómo utilizar una función nativa de Excel y cómo lograr el mismo objetivo con Power Query. Power Query es una función integrada en Excel 2016 y un complemento para Excel 2010/2013. Este complemento te ayuda a extraer, transformar y cargar tus datos con solo unos pocos clics.

A veces, cuando se importan datos de una fuente externa que no es Excel, los números se importan como texto. Si este es el caso, Excel le avisará mostrando un tooltip verde en la esquina superior izquierda de la celda. Si haces clic en el tooltip verás el siguiente mensaje:

power pivot youtube

El contexto de Power Pivot… Si es un usuario frecuente de Excel, probablemente esté familiarizado con las tablas dinámicas. Se utilizan para obtener información rápida a partir de pequeñas cantidades de datos y también pueden convertirse en gráficos fáciles de entender. Pero incluso Excel tiene sus limitaciones. Cuando se combinan tablas, se manipulan grandes conjuntos de datos de más de un millón de filas o se seleccionan datos de múltiples fuentes, Excel tiene problemas. Puede ser frustrante que Excel se cierre inesperadamente o que se ejecute con extrema lentitud o que se agote el tiempo de espera y sea necesario un cierre forzado.

En 2010 Microsoft añadió Power Pivots a Excel para ayudar en el análisis de grandes cantidades de datos. Power Pivot puede manejar cientos de millones de filas de datos, lo que lo convierte en una mejor alternativa a Microsoft Access, que antes de Excel era la única manera de lograrlo. Piensa en Power Pivot como una forma de utilizar tablas dinámicas en conjuntos de datos muy grandes.

También es útil cuando los datos provienen de múltiples fuentes. Con Power Pivot, puedes importar esos datos a un solo libro de trabajo sin necesidad de múltiples hojas de origen, lo que puede resultar confuso y frustrante.

excel manejando big data

En primer lugar, considere un conjunto de datos de millones de visitantes a su sitio web que comparten millones de “likes” y cada “like” genera un precio de opción determinado. Tu objetivo es investigar los datos y encontrar diferentes tendencias o patrones que puedan interesar a la empresa. En base a ello podrá construir sus futuros objetivos estratégicos. La cuestión es cómo analizar eficazmente los datos sin necesidad de recurrir a terceros expertos.

No es necesario utilizar todos los miles de millones de filas de datos cuando se pueden tomar representantes o muestras de datos. Es el mismo concepto que cuando realizamos entrevistas y elegimos una muestra de población para averiguar ciertos patrones. Sin embargo, tenemos que asegurarnos de que la muestra que elijamos responda al menos a tres de las preguntas principales. Por ejemplo, tenemos que saber el número de registros que queremos extraer, la modalidad de extracción, así como la fiabilidad de esos conjuntos de datos.

Consideremos un conjunto de datos de 500 millones de registros y que necesitamos extraer un máximo de 1 millón. Existen dos grandes tipos de muestreo: el no aleatorio y el aleatorio, que utilizaremos en nuestro caso porque queremos aproximarnos a la probabilidad de que algo ocurra en un gran conjunto de datos. Podemos hacer la selección aleatoria con la fórmula de bernouillan utilizando el intervalo de confianza, el tamaño de la población y el nivel de error.

análisis de big data excel

Big data. El término significa muchas cosas para mucha gente. La mejor definición que he oído es la de datos que no caben en el portátil. Con discos duros de 1 terabyte disponibles, por “caber” me refiero a que son demasiado grandes para procesarlos en el portátil. Un MacBook Pro de gama alta con un procesador de cuatro núcleos y 16 GB de RAM puede analizar una gran cantidad de datos, pero es fácil superar incluso esas potentes especificaciones.

Por ejemplo, si quieres descargar los datos de rendimiento de las aerolíneas a tiempo, necesitarás 12 GB. ¿Quieres el Corpus de Comentarios de Reddit? Necesitarás 250 GB sólo para almacenar los datos comprimidos. ¿Quieres descomprimirlos? Será mejor que compres un disco duro externo. ¿Y analizarlo? Necesitarás algo más de potencia para hacerlo.

¿Y qué pasa con Excel? Hace unos años, los conjuntos de datos podían abrirse y trabajarse fácilmente en Excel. Hay una serie de potentes funciones en Excel que te permiten limpiar, estandarizar y mezclar los datos. Sin embargo, incluso la poderosa hoja de cálculo tiene sus limitaciones. Pero, ¿cuáles son exactamente? Seguro que una hoja de cálculo de 100 megabytes parece tardar una eternidad en abrirse incluso en una máquina Windows repleta de memoria, pero ¿qué queremos decir con “limitaciones”? Desde Excel 2007, las capacidades máximas de la aplicación son las siguientes*:

Ir arriba