Que es kafka big data

Inicio » Que es kafka big data

apache kafka

Bernard MarrBernard Marr es un futurista de renombre mundial, influenciador y líder de pensamiento en los campos de los negocios y la tecnología, con una pasión por el uso de la tecnología para el bien de la humanidad. Es un autor de 20 libros de gran éxito, escribe una columna periódica para Forbes y asesora y entrena a muchas de las organizaciones más conocidas del mundo. Tiene más de 2 millones de seguidores en las redes sociales, 1 millón de suscriptores al boletín de noticias y ha sido clasificado por LinkedIn como uno de los 5 principales influenciadores empresariales del mundo y el número 1 en el Reino Unido.

Hadoop, Spark, Tensorflow, Python… la cantidad de plataformas, marcos y tecnologías que han surgido para ayudarnos a manejar y aprender de la creciente cantidad de datos disponibles para las empresas puede ser abrumadora. En este post voy a echar un vistazo a Kafka – un motor de procesamiento de datos diseñado específicamente para el procesamiento de información de alta velocidad y en tiempo real que hace posible la IA y el Big Data.

Kafka está diseñado para ejecutarse en un entorno “distribuido”, lo que significa que, en lugar de estar en el ordenador de un usuario, se ejecuta en varios (o muchos) servidores, aprovechando la potencia de procesamiento y la capacidad de almacenamiento adicionales que ello conlleva.

apache kafka anwendungsbeispiele

Cada vez son más las empresas que implementan soluciones de software que aprovechan el Big Data, el Machine Learning y las aplicaciones nativas de la nube. Esta parte avanzada y difícil del desarrollo de software requiere especialistas experimentados y versátiles y el uso de herramientas escalables y con capacidad de recuperación.

¿Qué es Kafka? Cómo se benefician las empresas de su implantación? ¿En qué hay que pensar antes de introducir Kafka en su organización y cuáles son los posibles casos de uso de Apache Kafka? He aquí una sencilla guía sobre Apache Kafka para los no técnicos y los desarrolladores que deseen familiarizarse con ella.

Kafka se originó alrededor de 2008 y sus autores fueron: Jay Kreps, Neha Narkhede y Jun Rao que en ese momento trabajaban en Linkedin. Fue un proyecto feroz de código abierto, ahora comercializado por Confluent, y utilizado como infraestructura fundamental por miles de empresas, desde AirBNB hasta Netflix.

Nuestra idea era que, en lugar de centrarnos en mantener montones de datos como nuestras bases de datos relacionales, almacenes de valores clave, índices de búsqueda o cachés, nos centraríamos en tratar los datos como un flujo en constante evolución y crecimiento, y construiríamos un sistema de datos -y, de hecho, una arquitectura de datos- orientada a esa idea.

kafka kubernetes

El crecimiento de Kafka se está disparando. Más de un tercio de todas las empresas de Fortune 500 utilizan Kafka. Entre estas empresas se encuentran las diez principales compañías de viajes, siete de los diez principales bancos, ocho de las diez principales compañías de seguros, nueve de las diez principales compañías de telecomunicaciones, y muchas más. LinkedIn, Microsoft y Netflix procesan cuatro mensajes al día con Kafka (1.000.000.000).

Kafka se utiliza para flujos de datos en tiempo real, para recopilar big data o para realizar análisis en tiempo real (o ambos). Kafka se utiliza con microservicios en memoria para proporcionar durabilidad y se puede utilizar para alimentar eventos a CEP (sistemas de flujo de eventos complejos) y sistemas de automatización estilo IoT/IFTTT.

Kafka se utiliza a menudo en arquitecturas de flujo de datos en tiempo real para proporcionar análisis en tiempo real. Dado que Kafka es un sistema de mensajería de publicación-suscripción rápido, escalable, duradero y tolerante a fallos, Kafka se utiliza en casos de uso en los que JMS, RabbitMQ y AMQP ni siquiera pueden considerarse debido al volumen y la capacidad de respuesta.

Kafka tiene un mayor rendimiento, fiabilidad y características de replicación, lo que lo hace aplicable para cosas como el seguimiento de las llamadas de servicio (rastrea cada llamada) o el seguimiento de los datos de los sensores IoT, donde un MOM tradicional podría no ser considerado.

mensajería kafka

Todos los artículos publicados por MDPI están disponibles inmediatamente en todo el mundo bajo una licencia de acceso abierto. No se requiere ningún permiso especial para reutilizar todo o parte del artículo publicado por MDPI, incluidas las figuras y tablas. En el caso de los artículos publicados bajo una licencia de acceso abierto Creative Common CC BY, cualquier parte del artículo puede reutilizarse sin permiso siempre que se cite claramente el artículo original.

Los Feature Papers representan la investigación más avanzada con un potencial significativo de alto impacto en el campo. Los artículos de fondo se presentan por invitación individual o por recomendación de los editores científicos y se someten a una revisión por pares antes de su publicación.

El artículo de fondo puede ser un artículo de investigación original, un estudio de investigación sustancial y novedoso que a menudo incluye varias técnicas o enfoques, o un artículo de revisión exhaustivo con actualizaciones concisas y precisas sobre los últimos avances en el campo que revisa sistemáticamente los avances más interesantes de la literatura científica. Este tipo de artículo ofrece una perspectiva sobre futuras direcciones de investigación o posibles aplicaciones.

Ir arriba