Apache Spark 3.0 aggiunge il supporto GPU Nvidia per l'apprendimento automatico

Apache Spark, il framework di elaborazione dei big data in memoria, diventerà completamente accelerato dalla GPU nella sua versione 3.0 di prossima uscita. Soprattutto, le applicazioni Spark odierne possono sfruttare l'accelerazione GPU senza modifiche; Le API Spark esistenti funzionano tutte così come sono.

I componenti di accelerazione GPU, forniti da Nvidia, sono progettati per completare tutte le fasi delle applicazioni Spark, comprese le operazioni ETL, la formazione sull'apprendimento automatico e il servizio di inferenza.

I contributi di Spark di Nvidia si basano sulla suite RAPIDS di librerie di data science con accelerazione GPU. Molte delle strutture dati interne di RAPIDS, come i dataframe, integrano quelle di Spark, ma per far sì che Spark utilizzasse RAPIDS in modo nativo, ci sono voluti quasi quattro anni di lavoro.

Gli aumenti di velocità di Spark 3.0 non derivano esclusivamente dall'accelerazione della GPU. Spark 3.0 ottiene anche miglioramenti delle prestazioni riducendo al minimo lo spostamento dei dati da e verso le GPU. Quando i dati devono essere spostati in un cluster, il framework Unified Communication X li sposta direttamente da un blocco di memoria GPU a un altro con un sovraccarico minimo.

Secondo Nvidia, una versione di anteprima di Spark 3.0 in esecuzione sulla piattaforma Databricks ha prodotto un miglioramento delle prestazioni di sette volte quando si utilizza l'accelerazione GPU, sebbene i dettagli sul carico di lavoro e il relativo set di dati non fossero disponibili. 

Non è stata fornita alcuna data definitiva per la disponibilità generale di Spark 3.0. È possibile scaricare le versioni di anteprima dal sito Web del progetto Apache Spark.