Data Tech

Come ChatGPT aiuta a scrivere modelli dati migliori in dbt per Fivetran

Fivetran è una piattaforma di integrazione dei dati che semplifica il processo di trasferimento e sincronizzazione dei dati da varie fonti verso una destinazione desiderata. Essenzialmente, Fivetran automatizza il flusso di dati attraverso connettori predefiniti con una vasta gamma di origini dati, applicazioni SaaS (Software as a Service) e molto altro ancora. Questo elimina la necessità di scrivere script personalizzati o di effettuare configurazioni complesse per estrarre, trasformare e caricare i dati. All’interno delle proprie impostazioni, Fivetran offre alcune opzioni di data trasformation; in un nostro articolo precedente, avevamo discusso come Fivetran adotti un approccio ELT (Extract – Load – Trasform) diverso dal tradizionale concetto ETL. Questo spiega perché, fin dal 2019, Fivetran ha integrato dbt Core nella propria piattaforma.

Cos'è e come funziona dbt

Dbt è uno strumento open source per la trasformazione dei dati che semplifica il processo utilizzando il linguaggio SQL, facilmente comprensibile. Una volta definite le trasformazioni desiderate, è possibile eseguirle per creare e testare tabelle di output. Inoltre, dbt automatizza gran parte del processo: ad esempio, può eseguire trasformazioni quando nuovi dati arrivano, eliminando la necessità di intervento manuale. L’integrazione tra Fivetran e dbt è semplice: dopo che Fivetran ha trasferito i dati, dbt può accedervi e avviare le trasformazioni. Fivetran offre anche modelli dati preconfigurati (Quickstart Data Model) per i connettori più comuni, che consentono di creare set di dati pronti all’uso per l’analisi.

Recentemente il team di ingegneri Fivetran che si occupa dell’implementazione dei modelli dati in dbt ha ammesso di utilizzare ChatGPT per scrivere i pacchetti dbt più efficienti e ridimensionando molto lavoro manuale che stava alla base.

Ecco alcuni modi in cui viene usato ChatGPT per accelerare la creazione dei modelli di dati dbt.

Documentazione e reperimento delle descrizioni delle colonne

Durante lo sviluppo di nuovi modelli dati e l’aggiornamento di quelli esistenti, viene dedicato molto tempo alla documentazione delle tabelle e dei campi dal livello dei dati grezzi. Questo è un processo ingombrante e ad alta intensità di ricerca. Tuttavia, con l’avvento dell’intelligenza artificiale il team di analisti di Fivetran è stato in grado di semplificare questo processo generando una quantità significativa di definizioni dei dati di origine (e persino test di integrità dei dati) interagendo con ChatGPT. Ora è possibile inserire direttamente schemi di origine dati direttamente in ChatGPT e, andando a sfruttare le API delle destinazioni di origine, chiedergli di documentare tabelle e campi definiti.

Comprendere i risultati di business di specifici modelli dati

Durante la creazione di nuovi modelli dati, il team di analisi di Fivetran conduce interviste con i nostri clienti per comprendere il caso d’uso dell’analisi per i loro dati di origine. Però non è possibile intervistare tutti i clienti e avere una completa panoramica dei casi d’uso. Grazie a ChatGPT, attraverso una semplice query, è possibile apprendere altri casi d’uso presenti nel web per comprendere i punti deboli comuni e le domande che altri hanno riscontrato durante l’utilizzo di una determinata origine dati. Ad esempio, durante la creazione di un modello dati Twilio dbt, il team di analisti di Fivetran ha avuto difficoltà a capire esattamente a quali tipi di risposte i clienti volessero rispondere con i dati. ChatGPT ha rivelato che i clienti spesso desiderano analizzare la suddivisione di tutti i messaggi mai inviati per scoprire tendenze e costi nel tempo. Allo stesso modo, l’aggregazione dei dati per numero di telefono e account è fondamentale per qualsiasi analisi Twilio.

Assistenza sulla compatibilità tra database

Fivetran vuole assicurarsi che i modelli dati creati siano utili per tutte le organizzazioni, indipendentemente dal data warehouse che andranno a utilizzare. Quando si creano modelli, ci sono lievi differenze tra i warehouses che dbt non può gestire completamente in maniera autonoma. I warehouses che utilizzano i dati JSON hanno modi simili di elaborare i dati, ma la sintassi varia tra di loro. Quindi, grazie all’interrogazione di ChatGPT, è stato possibile elaborare sintassi differenti a seconda della destinazione scelta.

Visualitics Team
Questo articolo è stato scritto e redatto da uno dei nostri consulenti.

Condividi ora sui tuoi canali social o via email: