Tutorial de Scala
Apache Spark es un marco de procesamiento de big data de código abierto construido en Scala y Java. Spark es conocido por su velocidad, facilidad de uso y sofisticados análisis. Fue desarrollado originalmente en 2009 en el AMPLab de la Universidad de Berkeley, y abierto en 2010 como un proyecto de Apache.
Apache Spark proporciona una interfaz para estructuras de datos llamada Resilient Distributed Dataset (RDD). Los RDDs proporcionan una abstracción a un conjunto diverso de posibles fuentes de datos, incluyendo datos estructurados, semiestructurados y no estructurados. Ejemplos de posibles conjuntos de datos incluyen cualquier fuente de entrada compatible con Hadoop, archivos de texto, datos de gráficos, bases de datos relacionales, JSON, CSV, bases de datos NoSQL, así como datos de streaming en tiempo real de proveedores como Kafka y Amazon Kinesis.
Proporcionar una interfaz consistente para múltiples fuentes de entrada es una de las características que hacen que Spark sea atractivo. Es especialmente beneficioso para las organizaciones que intentan encontrar valor a partir de conjuntos de datos grandes e inconsistentes. Más adelante en este tutorial se tratarán otras características y ventajas.
Visión general de Scala
Lo más difícil para los desarrolladores de big data hoy en día es elegir un lenguaje de programación para las aplicaciones de big data.Python y R de programación, son los lenguajes de elección entre los científicos de datos para la construcción de modelos de aprendizaje de máquina, mientras que Java sigue siendo el go-to lenguaje de programación para el desarrollo de aplicaciones hadoop. Con la llegada de varios marcos de big data, como Apache Kafka y Apache Spark, el lenguaje de programación Scala ha ganado importancia entre los desarrolladores de big data.
Una encuesta reciente de Typesafe sobre el ecosistema Spark reveló que el 88% utilizaba Scala para Apache Spark, el 22% utilizaba Python y el 44% utilizaba Java. (*Las preguntas de la encuesta permitían más de una respuesta, por lo que los porcentajes totales eran superiores a 100).
La programación en Scala mostró un crecimiento del 74% en 2014 (del 2,2% en 2013 al 3,9% de crecimiento en 2014) según una encuesta de KDnuggets sobre «el lenguaje de programación con mayor crecimiento para la ciencia de datos y el análisis de datos».
Según Dice Insights en «Boston’s 10 Most In-Demand Software Skills» por Ben Hicks -el lenguaje de programación Scala se situó entre las 10 principales habilidades de software- prediciendo que será la habilidad con mayor demanda.
Scala installieren
Para encender un fuego, ¿usas una cerilla, un mechero o una antorcha? Depende del tamaño del fuego, al igual que las decisiones que le llevan a uno a utilizar Python, R o Scala. Enciende tu interés en seleccionar las herramientas que necesitas para abordar el Big Data con facilidad, que no se apaguen sin más.
Los científicos de datos tienden a favorecer uno de los tres lenguajes de programación, Python, R o Scala. ¿Cuál elegir? Aprende Scala si eres un aspirante o un experimentado científico de datos (o ingeniero de datos) que está planeando trabajar con Apache Spark para abordar Big Data con facilidad. Esta ruta de aprendizaje ha sido desarrollada por Lightbend (anteriormente Typesafe), la autoridad indiscutible en todo lo relacionado con Scala. Acompáñanos y comienza tu viaje para recibir las siguientes insignias: Programación Scala para la Ciencia de Datos – Nivel 1 y Programación Scala para la Ciencia de Datos – Nivel 2.
El currículo de Typesafe Scala 101 para la Ciencia de Datos está diseñado para dar a los desarrolladores de datos experimentados y a la Ciencia de Datos el conocimiento para comenzar con confianza a programar en Scala para tareas de ciencia de datos. El curso asegura que tendrán una sólida comprensión de los fundamentos del lenguaje, las herramientas y el proceso de desarrollo, así como una buena apreciación de las características más avanzadas. Si los estudiantes ya tienen experiencia en la programación en Scala, este curso podría ser un repaso útil, aunque no se asume ningún conocimiento previo de Scala.
Ciencia de datos en Scala
Scala es un moderno lenguaje de programación multiparadigma diseñado para expresar patrones de programación comunes de una manera concisa, elegante y a prueba de tipos. Scala fue creado por Martin Odersky y lanzó la primera versión en 2003. Scala integra sin problemas las características de los lenguajes orientados a objetos y funcionales. Este tutorial explica los fundamentos de Scala de una manera sencilla y fácil de leer.
Este tutorial ha sido preparado para los principiantes para ayudarles a entender los fundamentos de Scala en pasos simples y fáciles. Después de completar este tutorial, usted se encontrará en un nivel moderado de experiencia en el uso de Scala, desde donde se puede llevar a los siguientes niveles.
La programación en Scala está basada en Java, por lo que si conoces la sintaxis de Java, entonces es bastante fácil aprender Scala. Además, si usted no tiene experiencia en Java, pero si usted sabe cualquier otro lenguaje de programación como C, C ++ o Python, entonces también ayudará a comprender los conceptos de Scala muy rápidamente.