вторник, 19 февраля 2019 г.

На смену Hadoop идет Kubernetes

Столько разговору было про эти хадупы-шмадупы, и вот... В статье Is Hadoop Dead? How Kubernetes and Cloud-Native Could Displace Hadoop утверждается, что Хадуп потихоньку сдувается. Пик популярности пройден в 2015м.

Автор отмечает недостатки Хадупа:
  • сложен в освоении
  • много записей на диск
  • обработка данных пакетная - поэтому неприменим для аналитики в реальном времени
Короче, нужно что-то еще. Apache Spark - скажет большинство. Но вот, оказывается, есть еще одна восходящая звезда - Kubernetes, менеджер контейнеров.

Чуть подробнее рассказано в статье Modern Big Data Pipelines over Kubernetes . Вкратце, там говорится, что людям мало стандартной инфраструктуры Hadoop ((Map/Reduce, YARN и HDFS) . Нужно, чтоб кластер умел работать с такими вещами как  Kafka, Spark и TensorFlow,  и такими СУБД как Cassandra, Elasticsearch и облачными хранилищами. Почему это невозможно с Хадупом - я пока не разобрался.

В статье также упоминаются serverless frameworks (Kubeless и OpenFaaS). Они легко разворачиваются без докеров, yaml и т.д. Т.е. уже и сервера не нужны?)) 

А еще говорится о Nuclio. Это платформа (тоже serverless) , которая использует Kubernetes вместо YARN, что позволяет работать с такими фреймворками как Spark ML, Presto, TensorFlow & Python. 

Интересно, конечно, но где гарантии, что все эти чудеса инженерии не окажутся очередными спиннерами?

Комментариев нет: