Come scegliere una piattaforma di analisi dei dati

Che tu abbia responsabilità nello sviluppo di software, devops, sistemi, cloud, automazione dei test, affidabilità del sito, team di scrum leader, infosec o altre aree della tecnologia dell'informazione, avrai sempre maggiori opportunità e requisiti per lavorare con dati, analisi e machine learning .

Riflettori tecnici: analisi

  • Come scegliere una piattaforma di analisi dei dati ()
  • 6 best practice per la visualizzazione dei dati aziendali (Computerworld)
  • Analisi sanitaria: 4 storie di successo (CIO)
  • SD-WAN e analisi: un matrimonio fatto per la nuova normalità (Network World)
  • Come proteggere gli algoritmi come proprietà intellettuale (CSO)

La tua esposizione all'analisi può derivare dai dati IT, come lo sviluppo di metriche e approfondimenti da metriche agili, devops o del sito web. Non c'è modo migliore per apprendere le competenze e gli strumenti di base su dati, analisi e apprendimento automatico che applicarli a dati che conosci e che puoi estrarre per ottenere informazioni utili per guidare le azioni.

Le cose diventano un po 'più complesse una volta che ti espandi al mondo dei dati IT e fornisci servizi a team di data scientist, citizen data scientist e altri analisti aziendali che eseguono visualizzazioni di dati, analisi e machine learning.

Innanzitutto, i dati devono essere caricati e puliti. Quindi, a seconda del volume, della varietà e della velocità dei dati, è probabile che incontrerai più database back-end e tecnologie di dati cloud. Infine, negli ultimi anni, quella che era una scelta tra business intelligence e strumenti di visualizzazione dei dati si è trasformata in una complessa matrice di analisi del ciclo di vita completo e piattaforme di machine learning.

L'importanza dell'analisi e dell'apprendimento automatico aumenta le responsabilità dell'IT in diverse aree. Per esempio:

  • L'IT spesso fornisce servizi per tutte le integrazioni di dati, database back-end e piattaforme di analisi.
  • I team Devops spesso distribuiscono e ridimensionano l'infrastruttura dei dati per consentire la sperimentazione su modelli di machine learning e quindi supportare l'elaborazione dei dati di produzione.
  • I team delle operazioni di rete stabiliscono connessioni sicure tra strumenti di analisi SaaS, multicloud e data center.
  • I team di gestione dei servizi IT rispondono a richieste e incidenti di servizi di analisi e dati.
  • Infosec supervisiona la governance e le implementazioni della sicurezza dei dati.
  • Gli sviluppatori integrano modelli di analisi e apprendimento automatico nelle applicazioni.

Data l'esplosione di analisi, piattaforme di dati cloud e capacità di apprendimento automatico, ecco una guida per comprendere meglio il ciclo di vita dell'analisi, dall'integrazione e pulizia dei dati, ai dataops e ai modelops, ai database, alle piattaforme di dati e alle offerte di analisi stesse.

L'analisi inizia con l'integrazione e la pulizia dei dati

Prima che gli analisti, i data scientist dei cittadini o i team di data science possano eseguire analisi, le origini dati richieste devono essere accessibili nelle loro piattaforme di visualizzazione e analisi dei dati.

Per iniziare, potrebbero esserci requisiti aziendali per integrare i dati da più sistemi aziendali, estrarre i dati dalle applicazioni SaaS o trasmettere i dati dai sensori IoT e da altre fonti di dati in tempo reale.

Questi sono tutti i passaggi per raccogliere, caricare e integrare i dati per l'analisi e l'apprendimento automatico. A seconda della complessità dei dati e dei problemi di qualità dei dati, ci sono opportunità di essere coinvolti in dataops, catalogazione dei dati, gestione dei dati master e altre iniziative di governance dei dati.

Conosciamo tutti la frase "immondizia dentro, spazzatura fuori". Gli analisti devono essere preoccupati per la qualità dei loro dati e gli scienziati dei dati devono essere preoccupati per i pregiudizi nei loro modelli di apprendimento automatico. Inoltre, la tempestività dell'integrazione di nuovi dati è fondamentale per le aziende che cercano di diventare più guidate dai dati in tempo reale. Per questi motivi, le pipeline che caricano ed elaborano i dati sono di fondamentale importanza nell'analisi e nell'apprendimento automatico.

Database e piattaforme di dati per tutti i tipi di sfide di gestione dei dati

Il caricamento e l'elaborazione dei dati è un primo passo necessario, ma poi le cose si complicano quando si selezionano i database ottimali. Le scelte odierne includono data warehouse aziendali, data lake, piattaforme di elaborazione di big data e database NoSQL specializzati, grafici, valori-chiave, documenti e colonne. Per supportare il data warehousing e l'analisi su larga scala, esistono piattaforme come Snowflake, Redshift, BigQuery, Vertica e Greenplum. Infine, ci sono le piattaforme di big data, tra cui Spark e Hadoop.

È probabile che le grandi aziende dispongano di più repository di dati e utilizzino piattaforme di dati cloud come Cloudera Data Platform o MapR Data Platform, o piattaforme di orchestrazione dei dati come InfoWorks DataFoundy, per rendere tutti questi repository accessibili per l'analisi.

I principali cloud pubblici, inclusi AWS, GCP e Azure, dispongono tutti di piattaforme e servizi di gestione dei dati da analizzare. Ad esempio, Azure Synapse Analytics è il data warehouse SQL di Microsoft nel cloud, mentre Azure Cosmos DB fornisce interfacce a molti archivi dati NoSQL, inclusi Cassandra (dati colonnari), MongoDB (valori-chiave e dati del documento) e Gremlin (dati del grafico) .

I data lake sono banchi di caricamento popolari per centralizzare i dati non strutturati per un'analisi rapida e uno può scegliere tra Azure Data Lake, Amazon S3 o Google Cloud Storage per servire a tale scopo. Per l'elaborazione di big data, i cloud AWS, GCP e Azure hanno anche offerte Spark e Hadoop.

Le piattaforme di analisi prendono di mira l'apprendimento automatico e la collaborazione

Con i dati caricati, puliti e archiviati, i data scientist e gli analisti possono iniziare a eseguire analisi e apprendimento automatico. Le organizzazioni hanno molte opzioni a seconda dei tipi di analisi, delle competenze del team di analisi che esegue il lavoro e della struttura dei dati sottostanti.

L'analisi può essere eseguita in strumenti di visualizzazione dei dati self-service come Tableau e Microsoft Power BI. Entrambi questi strumenti si rivolgono ai data scientist dei cittadini ed espongono visualizzazioni, calcoli e analisi di base. Questi strumenti supportano l'integrazione dei dati di base e la ristrutturazione dei dati, ma spesso si verificano conflitti di dati più complessi prima delle fasi di analisi. Tableau Data Prep e Azure Data Factory sono gli strumenti complementari per aiutare a integrare e trasformare i dati.

I team di analisi che desiderano automatizzare più della semplice integrazione e preparazione dei dati possono guardare a piattaforme come Alteryx Analytics Process Automation. Questa piattaforma collaborativa end-to-end collega sviluppatori, analisti, citizen data scientist e data scientist con l'automazione del flusso di lavoro e le funzionalità di elaborazione dati self-service, analisi e apprendimento automatico.

Alan Jacobson, chief analytics e data officer di Alteryx, spiega: “L'emergere dell'automazione dei processi analitici (APA) come categoria sottolinea una nuova aspettativa per ogni lavoratore di un'organizzazione di essere un data worker. Gli sviluppatori IT non fanno eccezione e l'estensibilità della piattaforma APA Alteryx è particolarmente utile per questi knowledge worker ".

Esistono diversi strumenti e piattaforme destinati ai data scientist che mirano a renderli più produttivi con tecnologie come Python e R semplificando al contempo molti dei passaggi operativi e infrastrutturali. Ad esempio, Databricks è una piattaforma operativa di data science che consente la distribuzione di algoritmi su Apache Spark e TensorFlow, gestendo automaticamente i cluster di elaborazione nel cloud AWS o Azure. 

Ora alcune piattaforme come SAS Viya combinano preparazione dei dati, analisi, previsioni, machine learning, analisi del testo e gestione dei modelli di machine learning in un'unica piattaforma modelops. SAS sta rendendo operativa l'analisi e si rivolge a data scientist, analisti aziendali, sviluppatori e dirigenti con una piattaforma collaborativa end-to-end.

David Duling, direttore della ricerca e sviluppo sulla gestione delle decisioni presso SAS, afferma: "Consideriamo i modelops come la pratica per creare una pipeline di operazioni ripetibile e verificabile per l'implementazione di tutte le analisi, inclusi i modelli AI e ML, nei sistemi operativi. Come parte di modelops, possiamo utilizzare le moderne pratiche devops per la gestione, il test e il monitoraggio del codice. Questo aiuta a migliorare la frequenza e l'affidabilità della distribuzione del modello, che a sua volta migliora l'agilità dei processi aziendali basati su questi modelli ".

Dataiku è un'altra piattaforma che si sforza di portare preparazione dei dati, analisi e apprendimento automatico ai team di data science in crescita e ai loro collaboratori. Dataiku ha un modello di programmazione visuale per abilitare la collaborazione e il codice notebook per sviluppatori SQL e Python più avanzati.

Altre piattaforme di analisi e apprendimento automatico dei principali fornitori di software aziendale mirano a portare funzionalità di analisi al data center e alle origini dati cloud. Ad esempio, Oracle Analytics Cloud e SAP Analytics Cloud mirano entrambi a centralizzare l'intelligence e automatizzare gli insight per consentire decisioni end-to-end.

Scegliere una piattaforma di analisi dei dati

La selezione di strumenti di integrazione, immagazzinamento e analisi dei dati era più semplice prima dell'avvento dei big data, dell'apprendimento automatico e della governance dei dati. Oggi esiste una combinazione di terminologia, funzionalità della piattaforma, requisiti operativi, esigenze di governance e utenti mirati che rendono la selezione delle piattaforme più complessa, soprattutto perché molti fornitori supportano più paradigmi di utilizzo. 

Le aziende differiscono nei requisiti e nelle esigenze di analisi, ma dovrebbero cercare nuove piattaforme dal punto di vista di ciò che è già in atto. Per esempio:

  • Le aziende che hanno avuto successo con i programmi di citizen data science e che dispongono già di strumenti di visualizzazione dei dati potrebbero voler estendere questo programma con l'automazione dei processi di analisi o le tecnologie di preparazione dei dati.
  • Le aziende che desiderano una toolchain che consenta ai data scientist che lavorano in diverse parti dell'azienda possono prendere in considerazione piattaforme di analisi end-to-end con funzionalità modelops.
  • Le organizzazioni con piattaforme dati back-end multiple e disparate possono trarre vantaggio dalle piattaforme dati cloud per catalogarle e gestirle centralmente.
  • Le aziende che standardizzano tutte o la maggior parte delle funzionalità dei dati su un unico fornitore di cloud pubblico dovrebbero esaminare l'integrazione dei dati, la gestione dei dati e le piattaforme di analisi dei dati offerte.

Con l'analisi e l'apprendimento automatico che diventano un'importante competenza di base, i tecnologi dovrebbero considerare di approfondire la loro comprensione delle piattaforme disponibili e delle loro capacità. Il potere e il valore delle piattaforme di analisi non potranno che aumentare, così come la loro influenza in tutta l'azienda.