Tableau

Effettua operazioni di pulizia utilizzando gli algoritmi in Tableau Prep

Raggruppamento

All’interno di Tableau Prep Builder abbiamo a disposizione diverse opzioni per effettuare operazioni di pulizia sulla nostra fonte dati. Una di queste operazioni è la possibilità di raggruppare campi scritti in modo diverso, ma aventi lo stesso significato.

Come ad esempio il campo ‘Abrams’. Oltre alla selezione manuale, Tableau Prep mette a disposizione una serie di opzioni che, tramite l’applicazione di algoritmi, eseguono queste operazioni di pulizia in modo automatico, su tutti i campi della variabile considerata per l’analisi.

Rimane comunque buona pratica revisionare manualmente i risultati ottenuti applicando l’algoritmo.

Gli algoritmi

Pronunciation

Questo algoritmo raggruppa fra loro parole aventi la stessa pronuncia, come ad esempio ‘Albuquerque’ e ‘Albuquerqee’. Il requisito da rispettare è che i campi considerati per l’analisi siano scritti in inglese.

Common Characteristics

Questo algoritmo, invece, permette di raggruppare campi aventi numeri e lettere in comune. Risulta quindi molto utile per raggruppare fra loro parole che differiscono per capitalizzazione, formattazione, ordine, come ad esempio ‘Jhon Smith’ e ‘Smith, John’.

L’algoritmo crea una stringa formata da ciascun carattere univoco, sia questo lettera o numero. Nel caso dell’esempio precedente, per entrambi i campi la stringa generata sarà ‘hijmnost’.

Questo algoritmo non tiene conto della pronuncia come il precedente.

Spelling

Definito un treshold, l’algoritmo raggruppa fra loro parole che possono differire per uno o più caratteristiche. Il treshold definisce il numero massimo di operazioni da eseguire perché le due parole siano identiche. Fra le operazioni possono rientrare la rimozione di una virgola, l’aggiunta di una lettera, e altre di questo tipo. Modificando lo slider sarà possibile aggiustare il treshold.

Pronunciation + spelling

Infine quest’ultimo algoritmo, a differenza dei precedenti, può essere applicato per trovare il Data Role più adatto da assegnare ai campi che non trovano corrispondenza, e che sono quindi segnalati da Tableau con un punto esclamativo rosso. I campi possono essere i seguenti: Email, Url e ruoli geografici. 

Se ti sei perso i nostri articoli precedenti, recuperarli sul nostro blog e continuare a seguirci sui nostri canali social LinkedIn, Facebook e Twitter!