Data science

Microsoft OneLake come nuova destinazione per i dati estratti da Fivetran

Poche settimane fa è stata messa a disposizione da parte di Fivetran una nuova destinazione per i dati che vengono estratti: parliamo di Microsoft OneLake. Questa è la seconda destinazione verso Microsoft, dopo che a settembre scorso era stata annunciata Delta Lake su Azure Data Lake Storage (ADLS Gen2). Grazie all’estrazione automatica dei dati, alla pulizia, alla conformità e alla conversione dei dati nel formato Delta Lake fornite da Fivetran, gli utenti potranno muoversi più rapidamente mentre costruiscono le basi per iniziative aziendali, come progetti di intelligenza artificiale (AI) o machine learning (ML). I dati strutturati, governati e pronti per le query sono essenziali affinché gli analisti e gli scienziati dei dati possano realizzare analisi di alto valore.

Ma che cos’è Microsoft OneLake?

Microsoft OneLake è un data lake, ovvero un repository di dati che consente di archiviare grandi quantità di informazioni in un’unica posizione centralizzata per tutta l’azienda. Come OneDrive, OneLake viene fornito automaticamente con ogni tenant di Microsoft Fabric ed è progettato per essere l’unica posizione per tutti i dati di analisi. All’interno di un tenant è possibile creare un numero qualsiasi di aree di lavoro; le aree di lavoro consentono a diversi team dell’organizzazione di distribuire i criteri di proprietà e di accesso.

OneLake Foundation for Fabric

Microsoft Onelake supporta più motori analitici (ad esempio T-SQL, Spark, Analysis Services) e qualsiasi tipo di file, strutturato o non strutturato. Tutti gli elementi di dati di Fabric, ad esempio data warehouse e lakehouse, archiviano automaticamente i dati in OneLake in formato Delta Parquet. Quindi se un data engineer carica i dati in un lakehouse usando Spark oppure uno sviluppatore SQL usa T-SQL per caricare i dati in un data warehouse completamente transazionale, entrambi contribuiranno allo stesso data lake.

Perché la nuova destinazione Microsoft OneLake di Fivetran è così importante?

OneLake è una soluzione che non richiede provisioning o configurazione e offre ai clienti un facile accesso ai loro dati attraverso un esploratore di file, simile a Microsoft OneDrive per i file. Utilizzando Fivetran, i clienti possono trasferirei dati direttamente nel loro spazio di lavoro OneLake da qualsiasi fonte di Fivetran senza necessità di comandi SQL o configurazioni personalizzate. Una volta che i dati sono in OneLake, le organizzazioni possono definire aree filtrate per consentire agli utenti di definire e controllare l’accesso. Le organizzazioni orientate ai dati affrontano sfide quando devono consolidare dati da diverse fonti. Ogni fonte richiede una pipeline per far atterrare i dati nella destinazione scelta. La creazione e la manutenzione di queste pipeline è un processo che richiede tempo, poiché molte fonti hanno requisiti unici, associati a aggiornamenti delle API e schemi in evoluzione che spesso interrompono la connessione. Utilizzando Fivetran per l’ingestione dei dati in OneLake o Delta Lake su Azure Data Lake, questo onere si riduce e viene fornita la struttura lakehouse che consente l’analisi non appena i dati atterrano.

La chiave di questo processo è la conversione automatica nel formato Delta Lake. Indipendentemente dal formato iniziale dei dati, Delta Lake offre affidabilità, scalabilità e prestazioni migliorate per il lakehouse. I team di analisti possono eseguire efficientemente query e manipolare dati con Python o SQL. La conversione di Fivetran nel formato Delta Lake offre una soluzione chiavi in mano che consente ai clienti di muoversi il più velocemente possibile per sfruttare il valore dei loro dati attraverso l’analisi e l’IA.

Fivetran - Microsoft

Conclusioni​

Fivetran offre la flessibilità e la scalabilità necessarie alle aziende per creare le basi di un lakehouse necessario per ottenere il massimo valore dai dati generati da fonti on-premises oppure basate su cloud o ancora da terze parti. Che un’organizzazione abbia un ambiente ibrido o multi-cloud, Fivetran permette di raggiungere ad alto volume di informazioni con un’alta affidabilità e pratiche standard del settore per la crittografia dei dati, con conformità a GDPR, ISO 27001 e SOC 2 Type II. Con l’integrazione di oltre 400 connettori e la conversione automatica nel formato Delta Lake, Fivetran permette di ottenere il massimo valore nell’adozione di un’architettura basata su un Data Lake.

Leggi tutti i nostri articoli sulla Data Science

Vuoi scopri le ultime novità su Fivetran e nuove tecnologie di data science?

Visualitics Team
Questo articolo è stato scritto e redatto da uno dei nostri consulenti.

Condividi ora sui tuoi canali social o via email: