Datapedia

Datapedia: Data Warehouse vs Data Lake…ma non solo!

“Datapedia” è la nostra rubrica mensile in cui illustriamo il significato di termini spesso fraintesi e confusi nel mondo della Business Intelligence (BI) e della Data Visualization.

Molti concetti possono sembrare simili, ma hanno obiettivi e applicazioni ben distinte. Spesso vengono utilizzati in modo impreciso, generando confusione anche tra i professionisti del settore.

In questo articolo, esploreremo 4 coppie di termini come Data Warehouse vs Data Lake e spiegheremo in modo chiaro cosa sono e quando utilizzarli.

Il testo descrive quattro coppie di concetti nel campo dei dati, evidenziando le loro definizioni, obiettivi, casi d’uso e differenze.

Data Warehouse vs Data Lake: immagazzinare i dati

Quando si ha la necessità di analizzare dei dati, è fondamentale capire prima di tutto dove essi siano contenuti. I dati, infatti, che siano aziendali, sanitari o di qualsiasi altro tipo, vengono immagazzinati all’interno di strutture in modo da garantirne la conservazione ed il loro utilizzo quando necessario.

Per esempio, i dati possono essere contenuti all’interno di un Data Warehouse, ovvero un sistema di archiviazione digitale che mette in collegamento grandi quantità di dati provenienti da diverse fonti. Il Data Warehouse è quindi la fonte unica e attendibile di dati dell’organizzazione che l’ha implementato. Esso può contenere dati strutturati (dati organizzati in schemi tabellari) o semi-strutturati (es. file XML, JSON), standardizzati e di cui ne è stata validata l’affidabilità e la qualità. Da questo repository centralizzato è possibile estrarre dati per soddisfare le più comuni esigenze di Business Intelligence: quindi condurre analisi, impostare reportistica di monitoraggio e creare visualizzazioni grafiche esplorative.

Quando invece i dati sono in un formato non strutturato (es: immagini, audio, video, e-mail) essi non posso essere contenuti all’interno di una struttura rigida e standardizzata come quella appena vista, per cui è necessario sfruttare le potenzialità del Data Lake. Esso è infatti un repository centralizzato che può contenere dati di qualsiasi fonte e struttura, siano questi elaborati o meno. Le potenzialità di analisi in questo caso sono superiori a quelle del Data Warehouse e spaziano su tutti i campi possibili, da quello sanitario a quello finanziario, ma questa maggior flessibilità di analisi comporta anche maggiori rischi relativi alla qualità del dato, che non risulta standardizzato.

SQL vs NoSQL: linguaggi per gestire i dati

Una volta immagazzinato, il dato deve poter essere analizzato affinché apporti valore all’organizzazione che lo possiede, ma per procedere con la sua analisi deve essere estratto dal repository in cui è contenuto. In questo caso entra in gioco il cosiddetto linguaggio SQL (Structured Query Language). Questo tipo di linguaggio di programmazione, infatti, permette sia l’archiviazione che l’elaborazione di dati contenuti in una struttura relazionale, ovvero dove i dati sono contenuti in tabelle con righe e colonne a rappresentare gli attributi del dato (come quelli visti nel caso del Data Warehouse). E’ un linguaggio di facile scrittura e comprensione che permette di archiviare, modificare e ricercare informazioni all’interno del database al fine di poter procedere poi con le analisi.

Qualora però i dati siano semi-strutturati, come visto prima, il linguaggio SQL non si presta più alla loro manipolazione e diventa necessario l’impiego del linguaggio NoSQL: questo permette di accedere e gestire i dati senza che abbiano la struttura relazionale prevista dal linguaggio SQL. Si presta bene per applicazioni in ambito mobile o Web oppure nel settore dei videogiochi e garantisce molta più flessibilità e scalabilità dell’analisi. E’ per tali motivi che diventa un linguaggio preferibile nel momento in cui ci si trova di fronte a volumi massivi di dati, come nel caso dei Big Data.

Data Migration vs Data Mining: migrare ed esplorare i dati

Come dicevamo prima, nel momento in cui il dato è all’interno di un database, si può procedere poi con la sua analisi. Esistono però casi in cui le informazioni devono essere spostate in un’altra struttura magari per motivi legislativi (es: cambia la normativa di protezione e trattamento dei dati) o logistici (es: è necessario centralizzare tutti i dati all’interno di un nuovo repository): si parla quindi di Data Migration. Come dice il nome, la Data Migration consiste nel trasferimento dei dati da un sistema di stoccaggio ad un altro. La migrazione può avvenire, per esempio, da un database verso un altro database, ma anche verso il cloud, in tutti i casi però resta una pratica delicata in cui bisogna star attenti a garantire la giusta conservazione dell’informazione.

Termine simile con cui può essere facile far confusione, ma dal significato completamente diverso è il Data Mining: con questo termine si intende l’estrazione di informazioni utili dai dati. Quello che si fa quando si parla di Data Mining è identificare tendenze, modelli e relazioni per supportare i processi decisionali. Tante sono le tecniche che si possono adoperare, dagli algoritmi di machine learning alle reti neurali, e altrettanti sono gli ambiti di applicazione, dal marketing alla demografia. L’obiettivo potrebbe per esempio essere quello di comprendere meglio la domanda di mercato di un determinato prodotto: queste tecniche di analisi forniscono gli strumenti per rispondere al quesito.

Prescriptive vs Descriptive Analytics: analizzare i dati

Potremmo dire quindi che il Data Mining offre degli strumenti utili per quella che viene definita come Prescriptive Analytics. In essa rientrano tutte le pratiche che sfruttano ipotesi, trial, modelli, simulazioni, analisi matematica e statistica per perfezionare il processo decisionale, indicando cosa fare e come prendere decisioni ottimali. L’obiettivo di queste analisi è per l’appunto quello di aiutare i decision makers a prendere decisioni corrette in base ai dati ovvero secondo criteri oggettivi, in ottica di ottimizzazione e minimizzazione del rischio.

Al contrario la Descriptive Analytics ha il compito di descrivere i processi, trovando correlazioni tra passato e presente senza spiegare le cause dei fenomeni e senza poter quindi porre raccomandazioni su cosa fare, come invece fa l’analisi precedentemente introdotta. La Descriptive Analytics si pone l’obiettivo di identificare quanto alcuni parametri chiave (KPI: Key Performance Indicators) cambino nel tempo e quindi individuare le tendenze storiche e in atto attraverso l’analisi statistica. E’ per questo considerata la forma più semplice di Business Intelligence in quanto cerca di rispondere alle domande “cosa è successo/cosa sta succedendo?” mentre la Prescriptive Analytics vuole rispondere alla domanda “qual è l’azione migliore che posso intraprendere?”.

Conclusioni

Per riassumere, abbiamo ripercorso buona parte del processo di analisi del dato, spiegando prima di tutto la differenza fra Data Warehouse e Data Lake. Sono entrambi repository di dati: il primo con una struttura standardizzata adatta ad analisi ricorrenti in cui la qualità e l’affidabilità del dato deve essere certa, il secondo invece decisamente più flessibile e scalabile volto a contenere anche dati non strutturati come file audio e video.

Affinché il dato abbia effettivamente valore esso deve prima essere estratto per poter essere analizzato. E’ per questo che entra in gioco il linguaggio SQL, necessario per inserire, modificare o estrarre le informazioni contenute all’interno di database relazionali (ovvero database costituiti da tabelle in relazione fra loro). Qualora i dati però non siano contenuti all’interno di queste strutture, diventa fondamentale l’utilizzo del linguaggio NoSQL per garantire il corretto utilizzo anche di dati semi-strutturati.

Capita a volte che i dati debbano essere spostati in un altro repository ed è in questi casi che si parla di Data Migration. Discorso diverso invece va fatto per il Data Mining, che racchiude tutte le tecniche per l’estrazione di informazioni utili dai dati.

E’ proprio questo insieme di tecniche che permette di fare la Prescriptive Analytics, ovvero quel tipo di analisi che vuole rispondere alla domanda “come posso agire?”. Tale studio permette infatti di trovare soluzioni ottimali al quesito che si ha di fronte proprio tramite l’utilizzo efficiente dei dati. Qualora invece ci serva semplicemente descrivere lo status quo del fenomeno in analisi entra in gioco la Descriptive Analytics: grazie ad essa possiamo osservare tendenze passate e presenti di un fenomeno per poterne studiare il comportamento.

Diventa un esperto di BI e Data Visualization

Se vuoi apprendere le basi dei principali tool di BI o diventare un esperto di Visual Anlytics, scopri i nostri training.

Visualitics Team
Questo articolo è stato scritto e redatto da uno dei nostri consulenti.

Fonti:
Che cos’è un data lake? – www.azure.microsoft.com
Cos’è il data mining? – www.sap.com
Cos’è NoSQL? – www.aws.amazon.com
Cos’è SQL (Structured Query Language)? – www.aws.amazon.com
Data migration: cos’è, come si esegue e le best practice – www.bnova.it
Prescriptive analytics, definizione e come funziona l’analisi prescrittiva – www.bigdata4innovation.it

Condividi ora sui tuoi canali social o via email: