▶ Agencia SEO | Posicionamiento web en toda España

Como formarse en big data en línea

cómo almacenar big data

Una opción sólida es trasladar el entrenamiento de aprendizaje automático a otro ordenador con acceso a más almacenamiento, liberando así el espacio de tu disco duro y permitiéndote trabajar en otras cosas mientras se realiza el entrenamiento.

Lo interesante aquí es que no tenemos que vincularlos tan estrechamente como cabría esperar en un principio. Podemos desvincularlos, lo que significa que podemos aprovechar los sistemas especializados para ambos. Esto puede dar lugar a eficiencias de escala cuando se trata de grandes datos.

La carga computacional se traslada con bastante facilidad, pero el traslado de grandes conjuntos de datos puede ser un poco más complicado. Sin embargo, si sus datos son realmente grandes, los resultados merecen la pena, ya que permite que muchas máquinas accedan a los datos, en paralelo, trabajando en su trabajo de formación de aprendizaje automático.

Con un ancho de banda de red típico de 100 megabits por segundo, ¡se necesitarían 3 años para subir un petabyte de datos por la red! Incluso si tuvieras una conexión de 1 gigabit, tardarías 4 meses. ¿Quién quiere esperar tanto tiempo? El dispositivo de transferencia, en cambio, puede capturar un petabyte entero de datos en sólo 25 horas. Es una locura de velocidad.

cómo manejar los big data

Tome una muestra aleatoria de sus datos, como las primeras 1.000 o 100.000 filas. Utilice esta muestra más pequeña para trabajar en su problema antes de ajustar un modelo final en todos sus datos (utilizando técnicas de carga progresiva de datos).

También puede considerar la posibilidad de realizar un análisis de sensibilidad de la cantidad de datos utilizados para ajustar un algoritmo en comparación con la habilidad del modelo. Tal vez haya un punto natural de rendimientos decrecientes que pueda utilizar como tamaño heurístico de su muestra más pequeña.

Esto puede requerir algoritmos que puedan aprender de forma iterativa utilizando técnicas de optimización como el descenso de gradiente estocástico, en lugar de algoritmos que requieren todos los datos en la memoria para realizar operaciones matriciales como algunas implementaciones de regresión lineal y logística.

Se pueden utilizar herramientas de bases de datos gratuitas de código abierto, como MySQL o Postgres, y la mayoría de los lenguajes de programación (¿todos?) y muchas herramientas de aprendizaje automático pueden conectarse directamente a bases de datos relacionales. También se puede utilizar un enfoque ligero, como SQLite.

los datos de python son demasiado grandes para la memoria

En las empresas de todos los sectores, la recopilación y el análisis de datos se han convertido en la prioridad número uno y los profesionales de Big Data tienen una gran demanda. IBM predice que la demanda de científicos de datos aumentará en el año 2020. Sin embargo, faltan profesionales para satisfacer la demanda. De hecho, Cisco informó que el 40% de las empresas tienen dificultades para conseguir expertos en Big Data que trabajen con ellos.

Lo cierto es que cada vez más empresas se están dando cuenta de la importancia de los científicos de datos y esto está impulsando el crecimiento del mercado. Se prevé que el mercado de big data crezca a una elevada tasa de crecimiento anual compuesta (CAGR) del 18,45%.

Una vez que hayas completado las lecciones, manejarás diferentes proyectos. Practicarás las instrucciones de la prueba de simulación en papel para prepararte para la certificación. El instructor le dará retroalimentación sobre su desempeño.

Después de la formación anterior, utilizarás CloudLab para llevar a cabo un proyecto industrial real en sectores como el de las telecomunicaciones, las redes sociales, los seguros y el comercio electrónico. Con los conocimientos adquiridos en este curso, estará preparado para realizar el examen de certificación de big data Cloudera CCA175.