NVIDIA ускоряет Apache Spark, ведущую платформу анализа данных

14 мaя 2020 NVIDIA oбъявилa o сoтрудничeствe с сooбщeствoм рaзрaбoтчикoв ПO с oткрытым кoдoм, чтoбы сooбщить GPU-ускoрeниe движку aнaлизa и oбрaбoтки бoльшиx мaссивoв дaнныx Apache Spark 3.0, кoтoрый примeняют свышe 500 000 спeциaлистoв вo всeм мирe.

С дoлгoждaнным выходом Spark 3.0 специалисты по работы с данными и машинному обучению впервые смогут применить GPU-ускорение к ETL-обработке (выборка, преобразование и загрузка), часто выполняемой с помощью операций базы данных SQL.

Обучение ИИ-модели можно проводить на том же кластере Spark, не перенося процессы на отдельную инфраструктуру. Это позволяет проводить высокоскоростной анализ данных на всех этапах конвейера анализа данных, ускоряя десятки и тысячи терабайт данных – от озера данных до обучения моделей. Более того, нет необходимости изменять существующий код, используемый для приложений Spark, работающих в локальной среде и облаке.

«Анализ данных – это самая большая вычислительная задача, стоящая сегодня перед компаниями и исследователями, – говорит Манувир Дас (Manuvir Das), руководитель Enterprise Computing в NVIDIA. – Нативное GPU-ускорение для всего конвейера Spark 3.0 — от ETL до обучения и инференса — обеспечивает производительность и масштаб, необходимые для объединения потенциала больших данных и силы ИИ”.

Являясь стратегическим партнером NVIDIA в области ИИ, Adobe одной из первых получила доступ к Spark 3.0 на Databricks. Первая же серия тестов показала 7-кратный прирост производительности и 90% сокращение расходов, благодаря GPU-ускоренному анализу данных для разработки продуктов в Adobe Experience Cloud и поддержке возможностей, поддерживающих цифровые бизнесы.

Прирост производительности в Spark 3.0 повышает точность моделей, позволяя обучать их на более крупных наборах данных и чаще переобучать. Это дает возможность обрабатывать терабайты новых данных каждый день, что очень важно для специалистов, поддерживающих рекомендательные системы и анализирующих новые исследовательские данные. Кроме того, ускоренная обработка означает, что для получения результатов требуется меньше аппаратных ресурсов, а значит значительно сокращаются затраты.

Databricks и NVIDIA добавляют скорости в Spark

Apache Spark была создана основателями Databricks, чья облачная унифицированная платформа анализа данных запускается на более чем миллионе виртуальных машин каждый день. NVIDIA и Databricks совместно оптимизируют Spark с помощью ПО RAPIDSTM для Databricks, обеспечивая GPU-ускорение для обработки данных и машинного обучения на Databricks в здравоохранении, финансах, рознице и многих других отраслях.

Ускорение ETL и переноса данных в Spark с помощью GPU NVIDIA

NVIDIA предоставляет RAPIDS для Apache Spark с открытым кодом, чтобы помочь специалистам увеличить производительность своих конвейеров. Ускоритель отменяет функции, ранее выполняемые на CPU, применяя GPU для следующих задач:

  • ускорение ETL-конвейеров в Spark за счет повышения производительности операций Spark SQL и DataFrame без необходимости в изменении кода;
  • ускорение подготовки данных и обучения моделей в той же инфраструктуре, без необходимости в отдельном кластере для машинного и глубокого обучения;
  • ускорение переноса данных между узлами в распределенном кластере Spark. Эти библиотеки используют открытый фреймворк Unified Communication X (UCX) Консорциума UCF и минимизируют латентность, перемещая данные напрямую в памяти GPU.

Предварительная версия Spark 3.0 уже доступна у Apache Software Foundation. В ближайшие месяцы будет открыт доступ к основной версии. Подробнее смотрите на странице www.nvidia.com/spark.

Источник

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.