Cos'è l'analisi dei big data? Risposte rapide da diversi set di dati

Ci sono i dati e poi ci sono i big data. Allora, qual è la differenza?

Big data definiti

Una chiara definizione dei big data può essere difficile da definire perché i big data possono coprire una moltitudine di casi d'uso. Ma in generale il termine si riferisce a set di dati così grandi in volume e così complessi che i prodotti software di elaborazione dati tradizionali non sono in grado di acquisire, gestire ed elaborare i dati entro un ragionevole lasso di tempo.

Questi set di big data possono includere dati strutturati, non strutturati e semistrutturati, ognuno dei quali può essere estratto per approfondimenti.

Quanti dati costituiscono effettivamente "grandi" è oggetto di dibattito, ma in genere può essere in multipli di petabyte e per i progetti più grandi nella gamma di exabyte.

Spesso i big data sono caratterizzati dalle tre V:

  • un volume di dati estremo
  • un'ampia varietà di tipi di dati
  • la velocità alla quale i dati devono essere elaborati e analizzati

I dati che costituiscono gli archivi di big data possono provenire da fonti che includono siti Web, social media, app desktop e mobili, esperimenti scientifici e, sempre più, sensori e altri dispositivi nell'Internet delle cose (IoT).

Il concetto di big data viene fornito con una serie di componenti correlati che consentono alle organizzazioni di utilizzare i dati in modo pratico e risolvere una serie di problemi aziendali. Questi includono l'infrastruttura IT necessaria per supportare le tecnologie dei big data, l'analisi applicata ai dati; le piattaforme di big data necessarie per i progetti, le relative competenze e i casi d'uso effettivi che hanno senso per i big data.

Cos'è l'analisi dei dati?

Ciò che offre davvero valore da tutti i big data che le organizzazioni stanno raccogliendo è l'analisi applicata ai dati. Senza analisi, che comporta l'esame dei dati per scoprire modelli, correlazioni, approfondimenti e tendenze, i dati sono solo un insieme di uno e zeri con un uso aziendale limitato.

Applicando l'analisi ai big data, le aziende possono vedere vantaggi quali aumento delle vendite, miglioramento del servizio clienti, maggiore efficienza e aumento generale della competitività.

L'analisi dei dati implica l'esame dei set di dati per ottenere informazioni o trarre conclusioni su ciò che contengono, come tendenze e previsioni sulle attività future.

Analizzando le informazioni utilizzando strumenti di analisi dei big data, le organizzazioni possono prendere decisioni aziendali meglio informate, come quando e dove eseguire una campagna di marketing o introdurre un nuovo prodotto o servizio.

L'analisi può fare riferimento ad applicazioni di business intelligence di base o analisi predittive più avanzate come quelle utilizzate dalle organizzazioni scientifiche. Tra i tipi più avanzati di analisi dei dati c'è il data mining, in cui gli analisti valutano grandi set di dati per identificare relazioni, modelli e tendenze.

L'analisi dei dati può includere analisi esplorativa dei dati (per identificare modelli e relazioni nei dati) e analisi dei dati di conferma (applicare tecniche statistiche per scoprire se un'ipotesi su un particolare set di dati è vera.

Un'altra distinzione è l'analisi dei dati quantitativi (o analisi dei dati numerici che hanno variabili quantificabili che possono essere confrontate statisticamente) rispetto all'analisi dei dati qualitativi (che si concentra su dati non numerici come video, immagini e testo).

Infrastruttura IT per supportare i big data

Affinché il concetto di big data funzioni, le organizzazioni devono disporre dell'infrastruttura per raccogliere e ospitare i dati, fornire l'accesso e proteggere le informazioni mentre sono in archivio e in transito. Ciò richiede l'implementazione di strumenti di analisi dei big data.

Ad alto livello, questi includono sistemi di archiviazione e server progettati per big data, software di gestione e integrazione dei dati, software di business intelligence e analisi dei dati e applicazioni per big data.

Gran parte di questa infrastruttura sarà probabilmente on-premise, poiché le aziende cercano di continuare a sfruttare i propri investimenti nel data center. Ma sempre più organizzazioni fanno affidamento sui servizi di cloud computing per gestire gran parte dei loro requisiti di big data.

La raccolta dei dati richiede la presenza di fonti per raccogliere i dati. Molti di questi, come applicazioni web, canali di social media, app mobili e archivi di posta elettronica, sono già presenti. Ma quando l'IoT diventa radicato, le aziende potrebbero dover implementare sensori su tutti i tipi di dispositivi, veicoli e prodotti per raccogliere dati, nonché nuove applicazioni che generano dati degli utenti. (L'analisi dei big data orientata all'IoT ha le proprie tecniche e strumenti specializzati.)

Per archiviare tutti i dati in arrivo, le organizzazioni devono disporre di un'adeguata archiviazione dei dati. Tra le opzioni di archiviazione ci sono data warehouse tradizionali, data lake e archiviazione basata su cloud.

Gli strumenti dell'infrastruttura di sicurezza potrebbero includere crittografia dei dati, autenticazione dell'utente e altri controlli di accesso, sistemi di monitoraggio, firewall, gestione della mobilità aziendale e altri prodotti per proteggere sistemi e dati,

Tecnologie per big data

Oltre alla suddetta infrastruttura informatica utilizzata per i dati in generale. Esistono diverse tecnologie specifiche per i big data che la tua infrastruttura IT dovrebbe supportare.

Ecosistema Hadoop

Hadoop è una delle tecnologie più strettamente associate ai big data. Il progetto Apache Hadoop sviluppa software open source per elaborazione distribuita e scalabile.

La libreria software Hadoop è un framework che consente l'elaborazione distribuita di grandi set di dati su cluster di computer utilizzando semplici modelli di programmazione. È progettato per passare da un singolo server a migliaia, ognuno dei quali offre elaborazione e archiviazione locali.

Il progetto comprende diversi moduli:

  • Hadoop Common, le utilità comuni che supportano altri moduli Hadoop
  • Hadoop Distributed File System, che fornisce accesso ad alta velocità di trasmissione ai dati dell'applicazione
  • Hadoop YARN, un framework per la pianificazione dei lavori e la gestione delle risorse del cluster
  • Hadoop MapReduce, un sistema basato su YARN per l'elaborazione parallela di grandi set di dati.

Apache Spark

Apache Spark, parte dell'ecosistema Hadoop, è un framework di cluster computing open source che funge da motore per l'elaborazione di big data all'interno di Hadoop. Spark è diventato uno dei principali framework di elaborazione distribuita di big data e può essere distribuito in diversi modi. Fornisce collegamenti nativi per i linguaggi di programmazione Java, Scala, Python (in particolare la distro Anaconda Python) e R (R è particolarmente adatto per i big data) e supporta SQL, dati in streaming, apprendimento automatico e elaborazione di grafici.

Data lake

I data lake sono archivi di archiviazione che contengono volumi estremamente grandi di dati grezzi nel loro formato nativo finché i dati non sono necessari agli utenti aziendali. Ad alimentare la crescita dei data lake sono le iniziative di trasformazione digitale e la crescita dell'IoT. I data lake sono progettati per rendere più facile per gli utenti accedere a grandi quantità di dati in caso di necessità.

Database NoSQL

I database SQL convenzionali sono progettati per transazioni affidabili e query ad hoc, ma sono dotati di restrizioni come schemi rigidi che li rendono meno adatti per alcuni tipi di applicazioni. I database NoSQL risolvono queste limitazioni e archiviano e gestiscono i dati in modi che consentono un'elevata velocità operativa e una grande flessibilità. Molti sono stati sviluppati da aziende che cercavano modi migliori per archiviare contenuti o elaborare dati per siti Web di grandi dimensioni. A differenza dei database SQL, molti database NoSQL possono essere scalati orizzontalmente su centinaia o migliaia di server.

Database in memoria

Un database in memoria (IMDB) è un sistema di gestione del database che si basa principalmente sulla memoria principale, piuttosto che sul disco, per l'archiviazione dei dati. I database in memoria sono più veloci dei database ottimizzati per disco, una considerazione importante per gli usi dell'analisi dei big data e per la creazione di data warehouse e data mart.

Competenze sui big data

Le attività di analisi dei big data e dei big data richiedono competenze specifiche, sia che provengano dall'interno dell'organizzazione o da esperti esterni.

Molte di queste competenze sono correlate ai componenti chiave della tecnologia Big Data, come Hadoop, Spark, database NoSQL, database in memoria e software di analisi.

Altri sono specifici per discipline come scienza dei dati, data mining, analisi statistica e quantitativa, visualizzazione dei dati, programmazione generica e struttura dei dati e algoritmi. C'è anche bisogno di persone con capacità di gestione generale per vedere i progetti Big Data fino al completamento.

Considerato quanto sono diventati comuni i progetti di analisi dei big data e la carenza di persone con questo tipo di competenze, trovare professionisti esperti potrebbe essere una delle maggiori sfide per le organizzazioni.

Casi d'uso dell'analisi dei big data

Big data e analisi possono essere applicati a molti problemi aziendali e casi d'uso. Ecco alcuni esempi:

  • Analisi dei clienti. Le aziende possono esaminare i dati dei clienti per migliorare l'esperienza del cliente, migliorare i tassi di conversione e aumentare la fidelizzazione.
  • Analisi operativa. Migliorare le prestazioni operative e utilizzare al meglio le risorse aziendali sono gli obiettivi di molte aziende. Gli strumenti di analisi dei big data possono aiutare le aziende a trovare modi per operare in modo più efficiente e migliorare le prestazioni.
  • Prevenzione frodi. Strumenti e analisi dei big data possono aiutare le organizzazioni a identificare attività e modelli sospetti che potrebbero indicare comportamenti fraudolenti e contribuire a mitigare i rischi.
  • Ottimizzazione dei prezzi. Le aziende possono utilizzare l'analisi dei big data per ottimizzare i prezzi che applicano per prodotti e servizi, contribuendo a incrementare le entrate.