Data Science

Gli strumenti In-DB di Alteryx: parte 1

Ogni qualvolta che elaboriamo dati provenienti da un database, un programma tradizionale esegue i seguenti passaggi:

  1. Scarica i dati stessi all’interno di un file temporaneo sul tuo computer locale;
  2. Importa questi dati all’interno del programma.

 

Ciò è vero anche per il classico strumento di import di Alteryx: l’Input Data Tool. Quindi, ovunque risieda il tuo DB, i dati devono prima passare dalla rete del tuo computer, e solo in un secondo momento vengono rielaborati. Va da sé che questo processo può essere lento, soprattutto quando si verifica un’elevata latenza di rete durante la connessione a DB contenente tabelle di grandi dimensioni.

Gli strumenti in-DB di Alteryx, invece, hanno il grande vantaggio di consentire l’elaborazione dei dati all’interno del database stesso, senza mai spostarci al di fuori dell’ambiente DB. Questo garantisce un significativo aumento delle prestazioni rispetto ai metodi tradizionali di analisi, che prevedono invece l’import dei dati in un ambiente separato.

In altre parole, gli strumenti In-DB consentono agli utenti di creare visivamente la propria query SQL. Pertanto, quando si scrive la formula o si filtrano i dati negli strumenti In-DB, funzionerà solo la sintassi SQL e non le funzioni specifiche di Alteryx. Ciononostante, è possibile integrare facilmente i flussi di lavoro standard con i flussi di lavoro In-DB per un’ulteriore fusione e analisi dei dati.

In questo caso, i dati verranno trasmessi in streaming dal database al computer locale utilizzando lo strumento Data Stream Out.

Come potete vedere dall’esempio qui in basso, i colori degli anchor cambiano da azzurro a verde quando ci trasferiamo dal DB, al workflow tradizionale Alteryx.  

In definitiva, possiamo affermare che gli strumenti In-DB di Alteryx permettono di generare query SQL senza propriamente conoscerne il linguaggio (o senza conoscerlo del tutto); questo grazie al tradizionale metodo drag-and-drop.  

Di seguito riportiamo l’elenco dei DB integrabili: Amazon Redshift, Apache Spark ODBC, Cloudera Impala, Databricks, EXASOL, Hive, IBM Netezza, Microsoft Analytics Platform System, Microsoft Azure SQL Database, Microsoft Azure SQL Data Warehouse, Microsoft SQL Server 2008, 2012, 2014, 2016, MySQL, Oracle, Pivotal Greenplum, PostgreSQL, SAP Hana, Snowflake, Teradata, Vertica.

E se ancora qualcosa non ti è chiaro e vuoi qualche informazione in più, non esitare a scriverci su info@visualitics.it!