Tableau

Come realizzare una Join su Tableau Prep

Molte volte, prima di analizzare e visualizzare dati attraverso software di business intelligence, occorre preparare la base dati tramite procedure ETL (Extract Transform Load). Nonostante siano presenti diversi software che permettono di effettuare queste operazioni, Tableau Prep spicca per semplicità di utilizzo grazie all’interfaccia drag and drop e all’approccio visuale del software.

In questo articolo, vedremo come realizzare una Join su Tableau Prep, ovvero come combinare i dati provenienti da tabelle e/o fonte dati differenti in una unica. La join è una delle manipolazioni più diffuse ed utilizzate perché permette di integrare i dati in un’unica fonte dati così da poter rispondere a domande le quali non avrebbero risposta se si interrogassero le singole tabelle.   

Come realizzare una Join

Come esempio, useremo due tabelle con dati spotify relativi al 2023: una contiene le informazioni relative ad album, artista e titolo della canzone (tabella primaria), l’altra contiene informazioni relative all’intensità del singolo brano e quanto facilmente può essere ballato dalle persone (tabella con informazioni aggiuntive). Per sapere quali sono le canzoni più ballabili o che tramettono più energia agli ascoltatori occorre creare un’unica base dati nella quale queste due tabelle siano in join tra di loro.

Una volta stabilita la connessione su Tableau Prep e ripulito i dati secondo le nostre necessità, possiamo effettuare la join. Basterà aggiungere un join step selezionandolo dal menù a tendina a destra dello step che vogliamo preceda quello di join, oppure trascinando l’ultimo step di pulizia di una fonte su quello relativo all’altra fonte.

Join Tableau Prep
Join
Join Tableau Prep
Join Step

Le 5 tipologie di Join su Tableau Prep

Una volta aggiunto il join step, vedremo comparire il seguente menù nel profile pane che permette di impostare, modificare e vedere un’anteprima dei risultati della join.

Da qui, potremo anche impostare la clausola di join (ovvero il criterio secondo il quale le tabelle saranno collegate) e il tipo di join (ovvero il numero e la provenienza delle righe che sarà restituito dalla join). E’ importante riflettere attentamente sulla clausola e la tipologia di join da usare perché queste determinano quali dati escludere e includere nella base dati finale.

Impostare Join

Esistono 5 tipologie principali di join su Tableau Prep:

1. Inner Join

L’Inner Join restituisce solamente i record che soddisfano la chiave di join, escludendo tutti gli altri. E’ la soluzione di default proposta da Prep ed è opportuna se si vogliono filtrare fuori tutti i valori nulli.

Nel nostro caso, restituirebbe soltanto le canzoni con id presente e uguale in entrambe le tabelle.

Inner Join

2. Not Inner Join

La Not Inner è l’opposto della tipologia vista precedentemente, infatti restituisce i valori che non soddisfano la chiave di join. Questo tipo di join è largamente utilizzato per migliorare la data quality, ovvero per identificare e trattare i record che non soddisfano una particolare condizione.

Nel nostro caso restituirebbe le canzoni che non sono presenti in entrambe le tabelle, quindi che presentano un id presente in solamente una delle due tabelle.

Not Inner Join

3. Left Join

La Left Join restituisce tutti i record che soddisfano la chiave di join più tutti quelli che non la soddisfano e provengono dalla tabella posizionata a sinistra (o identificata con il colore rosa).

Nel nostro esempio, useremo questa tipologia di join perchè per ogni canzone (tabella di sinistra) vogliamo sapere il relativo livello di intensità e di adattabilità al ballo (tabella di destra). Quindi vorremo tutti i record della tabella di sinistra (ovvero tutte le canzoni), mentre vorremo sapere le informazioni aggiuntive soltanto per le canzoni presenti nella tabella di sinistra (e non per canzoni che non sono presenti nella tabella delle canzoni di partenza).  

Left Join

4. Right Join

La Right Join applica la stessa logica della left, ma alla tabella di destra anziché di sinistra. Di conseguenza, restituisce tutti i record che soddisfano la chiave di join più tutti quelli che non la soddisfano e che provengono dalla tabella di destra (identificata dal colore azzurro).

Nel nostro caso, restituirebbe tutti i record che soddisfano la chiave di join (le canzoni il cui id è presente in entrambe le tabelle) più eventuali canzoni aggiuntive che sono presenti nella tabella di destra (per cui si hanno informazioni inerenti l’intensità e la propensione al ballo) ma non hanno un valore corrispondente nella tabella di sinistra (non si conoscono il titolo o il nome dell’album).

Right Join

5. Full Outer

La Full Outer restituisce tutti i record provenienti da entrambe le tabelle. I record che soddisfano la chiave di join sono collegati sulla stessa riga, mentre quelli che non soddisfano la chiave sono aggiunti su righe diverse.

Nel nostro caso, restituirebbe tutti i record provenienti da entrambe le tabelle.

Full Outer

Come modificare una Join

Una volta impostate le clausole e la tipologia di Join che riteniamo più opportuna (nel nostro caso la left join), Prep mostra un’anteprima del risultato.

Summary of Join Results

Il riquadro “Summary of Join Results” mostra il numero di righe incluso da ciascuna fonte, il numero di righe escluse (e la relativa provenienza) e il numero totale di righe del risultato finale. Nel momento in cui selezioniamo una tipologia di Join mediante l’interazione con il Venn diagram, la consultazione di questa matrice può tornare utile per verificare il risultato in modo veloce e intuitivo. Inoltre, nel caso in cui Prep rilevasse altri campi con denominazione comune nelle due fonti dati, il software suggerisce questi campi come clausola aggiuntiva, ma ovviamente siamo noi che scegliamo se includerla oppure no.

Conclusioni

Una volta soddisfatti con l’impostazione e il risultato della join, non resta che ripulire la nuova base dati e esportarla nel formato a noi più utile per procedere con l’analisi e la visualizzazione.

Ricordate sempre di verificare che i dati ottenuti abbiano senso perché il numero proposto nel Summary dei risultati non è sufficiente per valutare la qualità del risultato ottenuto.

Speriamo che questo articolo sia stato utile per capire le logiche e l’esecuzione di una join su Tableau Prep, ma se avessi ancora dubbi o domande, non esitare a scriverci!

Scopri tutti i prodotti Tableau

Vuoi scegliere la soluzione Tableau più adatta alle tue esigenze? 

Visualitics Team
Questo articolo è stato scritto e redatto da uno dei nostri consulenti.

Condividi ora sui tuoi canali social o via email: