la guida

ETL: che cos’è extract, transform, load e quali sono le soluzioni sul mercato



Indirizzo copiato

Un processo tra i più noti nell’ambito dell’integrazione dei dati: ETL, extract, transform e load è il flusso che consente di riunire in un unico archivio centralizzato i dati provenienti da diversi sistemi. Ecco i vantaggi e i principali provider sul mercato

Pubblicato il 8 mag 2025

Giuseppe Arcidiacono

Responsabile Sistema Informativo at ARCEA



sicurezza delle API ETL giovani commercialisti; semplificazione amministrativa

L’ETL, acronimo derivante dalla locuzione anglosassone Extract, Transform, Load (traducibile in italiano in “Estrazione, Trasformazione e Caricamento”), rappresenta il processo probabilmente più conosciuto nell’ambito dell’integrazione dei dati, che, in estrema sintesi, descrive il flusso operativo attraverso il quale un’organizzazione acquisisce dati tra loro non direttamente riconnessi, memorizzati in una forma libera o più o meno strutturata, gestiti da diversi team in varie sedi, portandoli in uno stato nel quale diventano effettivamente utili per il proprio core business.

Che cos’è l’ETL Extract, Transform, Load

Provando a fornire una definizione più “rigorosa”, con il termine ETL si intende un insieme di metodologie finalizzate a trasportare ed “arricchire” informazioni provenienti da molteplici sistemi in un unico archivio centralizzato (cui in termini tecnici ci riferisce con i nomi di “database”, “datastore”, “data warehouse” o “data lake”) fornendo loro un valore aggiunto in grado di renderli un asset aziendale strategico.

Introdotto sull’onda della crescente popolarità dei database negli anni ’70 del secolo scorso, che aveva condotto ad una estrema frammentazione e segmentazione delle informazioni in numerosi “silos” spesso a tenuta stagna, l’ETL si è immediatamente imposto come un tassello basilare per la gestione dei dati, diventando di fatto il metodo principale per l’elaborazione delle informazioni nei progetti di “data warehousing”.

L’importanza del processo ETL in azienda

L’implementazione di processi ETL offre numerosi vantaggi alle aziende, influenzando positivamente sia le operazioni tecniche che i risultati strategici, portando, in estrema sintesi, i seguenti benefici:

  • Miglioramento della Business Intelligence e dell’Analisi: fornisce dati affidabili, accurati e dettagliati per l’analisi, consentendo di ottenere migliori intuizioni e prendere decisioni più informate.
  • Analisi delle serie storiche: L’ETL permette di combinare dati storici e nuovi, offrendo una visione a lungo termine e una comprensione più approfondita delle tendenze.
  • Visione “olistica” delle informazioni: Consolidando dati provenienti da varie fonti in un’unica vista unificata, l’ETL semplifica l’analisi e la creazione di report, riducendo le inefficienze.
  • Miglioramento della qualità dei dati e della conformità: I processi ETL includono spesso la pulizia, la profilazione e l’audit dei dati, garantendo accuratezza, coerenza e aderenza agli standard normativi.
  • Automazione dell’elaborazione dei dati: Gli strumenti ETL automatizzano le attività ripetitive di elaborazione dei dati, aumentando l’efficienza e liberando i data engineer per compiti più strategici.
  • Aumento della produttività: Codificando e riutilizzando i processi di spostamento dei dati, l’ETL migliora la produttività degli specialisti dei dati.
  • Supporto alla migrazione dei dati: L’ETL è fondamentale per la migrazione dei dati tra applicazioni, sistemi e verso il cloud.
  • Replicazione e sincronizzazione dei dati: L’ETL può essere utilizzato per replicare i dati a fini di backup e ridondanza, nonché per sincronizzare sistemi chiave.
  • Riduzione dei costi: L’automazione e i guadagni di efficienza derivanti dall’ETL possono portare a una riduzione dei costi operativi.
  • Abilitazione del machine learning e dell’intelligenza artificiale: L’ETL prepara e consolida i dati in un’unica posizione, rendendoli accessibili per le applicazioni di machine learning e intelligenza artificiale. Fornisce i dati puliti e formattati necessari per l’addestramento dei modelli.

Le fasi di estrazione, trasformazione e caricamento

Il processo inizia con l’estrazione dei dati dai sistemi sorgente, che possono includere database, applicazioni, file e altro, per proseguire nel caricamento in un’area di staging, ossia uno spazio di archiviazione intermedio, che isola, di fatto, i sistemi sorgente dal processo di trasformazione, operato attraverso operazioni di pulizia, formattazione e integrazione, in base a regole aziendali predefinite.

I dati opportunamente trasformati sono successivamente caricati negli archivi digitali di destinazione attraverso un processo che può essere pianificato per essere eseguito periodicamente (elaborazione batch) o in maniera continua (ETL in tempo reale o streaming).

Fase di estrazione

Il primo passaggio fondamentale è rappresentato, come anticipato in precedenza, dal recupero dei dati da una o più sorgenti e dalla loro temporanea allocazione in un luogo di transito temporaneo generalmente chiamato “staging area”.

Le fonti di dati possono essere, in prima battuta, così classificate:

STRUTTURATESEMI-STRUTTURATENON STRUTTURATE
Database relazionali (come SQL Server, Oracle, MySQL, PostgreSQL), database NoSQL (come MongoDBFile XML, JSONFile di testo, email o pagine web
Connettori nativi o connessioni ODBC/JDBCTecniche di parsing specifiche per il formatoTecniche di web scraping o analisi del testo

L’estrazione, in base alle modalità ed alle tempistiche con le quali sono recuperati i dati, può avvenire nelle seguenti modalità:

CompletaIncrementaleChange Data Capture (CDC)
I Dati vengono estratti dalla sorgente ogni volta E’ adatta per set di dati di piccole dimensioni o per carichi inizialiSono recuperati solo i dati nuovi o modificati dall’ultima estrazione, più efficiente per set di dati di grandi dimensioni e frequentemente aggiornatiMonitora le modifiche nei dati sorgente in tempo reale e le replica.

Di seguito sono riportate alcune considerazioni sulla fase di estrazione:

  • La qualità dei dati sorgente deve essere valutata per pianificare le trasformazioni necessarie.
  • La sicurezza e l’accesso ai dati richiedono un’adeguata autenticazione e autorizzazione.
  • È importante minimizzare l’impatto sulle prestazioni dei sistemi sorgente durante l’estrazione.
  • La validazione dei dati estratti è cruciale per assicurare che i valori recuperati siano corretti e attesi.

Trasformazione

In questa fase, i dati estratti sono puliti, elaborati e convertiti in un formato comune, con l’obiettivo di garantire:

  • la rimozione di errori, duplicati e incongruenze;
  • la standardizzazione dei formati e delle unità di misura;
  • l’arricchimento dei dati aggiungendo informazioni mancanti;
  • il filtraggio e l’ordinamento dei dati;
  • l’unione di dati provenienti da diverse fonti;
  • l’aggregazione dei dati per ottenere riepiloghi.

Tale attività, nella quale sono applicate anche le regole aziendali per soddisfare specifiche esigenze analitiche, può avvenire nei seguenti modi:

Trasformazione “di base”Avanzata
Prevede la pulizia, il filtraggio, l’ordinamento, la conversione dei tipi di dati e la revisione del formatoEffettua anche l’unione, l’aggregazione, permette la derivazione di nuovi valori, la divisione di colonne ed applica tecniche di crittografia
La pulizia dei dati è un’attività fondamentale che comporta l’identificazione e la correzione di errori, incongruenze e imprecisioni oltre alla rimozione di record duplicati, alla gestione dei valori mancanti. La validazione dei dati rispetto a regole predefinite è un altro aspetto cruciale. La standardizzazione dei dati assicura la coerenza nel formato, nelle unità e nella codifica. Ciò può comportare la conversione dei tipi di dati, la formattazione di date e orari, la standardizzazione delle unità di misura (ad esempio, da chilogrammi a libbre) e la mappatura di codici e valori.L’arricchimento dei dati consiste nel migliorarli con informazioni aggiuntive rilevanti. Questo può includere l’unione di dati provenienti da diverse fonti, la ricerca di valori in tabelle di riferimento e l’aggiunta di campi calcolati. Altre operazioni avanzate di trasformazione includono il filtraggio dei dati in base a criteri specifici, l’ordinamento per requisiti specifici, l’aggregazione per ottenere riepiloghi, la divisione dei dati in più tabelle o colonne, la derivazione di nuovi attributi o metriche, la traduzione di dati codificati e la mascheratura o crittografia dei dati per la sicurezza e la conformità.
Può avvenire in memoria o su disco, a seconda del volume dei dati e della potenza di elaborazione

Caricamento

Il passaggio finale consiste nell’inserimento dei dati trasformati negli archivi digitali di destinazione, dove saranno successivamente utilizzati per gli scopi aziendali, generando valore aggiunto e permettendo all’organizzazione di raggiungere più agevolmente i propri obiettivi.

Il caricamento, alla stregua di quanto avviene per l’estrazione può avvenire, in estrema sintesi, in due modalità:

COMPLETOINCREMENTALE
Sovrascrive tutti i dati esistenti nel sistema di destinazione È più semplice da implementare ma può essere intensivo in termini di risorse per grandi set di dati.Aggiunge o aggiorna solo i dati modificati È più efficiente per i dati che cambiano frequentemente ma richiede meccanismi per tracciare le modifiche
In entrambi i casi l’operazione può avvenire in batch, caricando i dati in insiemi discreti, o in tempo reale o streaming, caricando i dati continuamente man mano che vengono trasformati

ETL vs ELT: quali differenze

Una tecnologia che si è evoluta in un tempo successivo all’ETL e che in qualche modo è possibile considerare come “complementare” è l’ELT (acnonimo di Extract, Load, Transform), che, come è possibile intuire dal nome, differisce dalla propria “gemella” fondamentalmente in base all’ordine delle operazioni.

Poiché nell’ETL la trasformazione avviene prima del caricamento nel sistema di destinazione, nel data warehouse sono caricati dati più puliti e trasformati, permettendo di risparmiare spazio di archiviazione e potenza di elaborazione sul sistema di destinazione. L’ETL, pertanto, risulta maggiormente adatto per dati strutturati e per esigenze di conformità, ma può risultare più lento per grandi set di dati a causa della trasformazione iniziale.

L’ELT, rimandando la fase di trasformazione, garantisce tempi di caricamento più rapidi, specialmente per dati di grandi dimensioni e non strutturati, permettendo di sfruttare la potenza di elaborazione dei moderni data warehouse cloud.
Tale approccio offre maggiore flessibilità per l’analisi, poiché i dati grezzi vengono conservati, ma potrebbe comportare costi di archiviazione più elevati per i dati non necessari e richiede robuste misure di sicurezza per i dati sensibili.

Di seguito è riportata una comparazione sinottica delle due tecnologie:

Caratteristica/FattoreETLELT
Ordine delle OperazioniEstrai -> Trasforma -> CaricaEstrai -> Carica -> Trasforma
Posizione TrasformazioneServer di elaborazione secondarioAll’interno del data warehouse/lake
Compatibilità DatiPrincipalmente dati strutturatiStrutturati, semi-strutturati, non strutturati
VelocitàPiù lentoPiù veloce
CostoPotenzialmente più costoso all’inizioPiù efficiente in termini di costi a seconda dell’infrastruttura ELT
Sicurezza/ConformitàTrasformazione pre-caricamento per la privacyRichiede maggiori salvaguardie per la privacy
Casi d’UsoSistemi legacy, conformità elevata, dati strutturatiBig data, cloud, flessibilità analitica, dati non strutturati
Adattabilità Volume DatiPiù adatto a set di dati più piccoliPiù adatto a grandi volumi di dati
Capacità Real-timeMeno adattoPiù adatto
MaturitàTecnologia consolidata (oltre 20 anni)Tecnologia più recente

Gli strumenti ETL

La scelta dello strumento ETL maggiormente adatto alle esigenze aziendali rappresenta un passaggio fondamentale per il successo dei progetti di integrazione dei dati. Di seguito è riportata una carrellata di diverse tipologie di strumenti (che possono preliminarmente essere classificati in “open-source”, “commerciali” e “cloud-based”), cui sono associati vantaggi, svantaggi ed esempi di prodotti effettivamente presenti sul mercato:

Open-sourceCommercialiCloud-based
VantaggiOffrono flessibilità e supporto dalla comunità, spesso senza costi di licenza inizialForniscono funzionalità di livello enterprise, supporto dedicato e spesso un’interfaccia più intuitivaSono soluzioni completamente gestite offerte dai provider di cloud, che garantiscono scalabilità, flessibilità e spesso integrazione con altri servizi cloud. Solitamente adottano modelli di prezzo pay-as-you-go.
SvantaggiLa loro configurazione e manutenzione possono richiedere maggiori competenze tecnicheComportano costi di licenzaIn caso di elevato utilizzo i costi possono essere elevati
EsempiApache NiFi, Hadoop, Pentaho, Airbyte e Apache AirflowTalend, IBM DataStage, Oracle Data Integrator, Informatica PowerCenter, SAS Data Management, Integrate.io, Fivetran, Matillion, Hevo Data, Stitch, Skyvia e BlendoAWS Glue, Azure Data Factory e Google Cloud Dataflow/Data Fusion

Criteri chiave per la scelta dello strumento etl giusto per esigenze specifiche

Tra i fattori ed i criteri più importanti sottesi alla selezione delle soluzioni più adatte è possibile indicare i seguenti:

CriterioDescrizioneLivello di Importanza
ConnettivitàCapacità di connettersi a varie sorgenti e destinazioni datiAlto
Capacità di TrasformazioneOfferta di trasformazioni di base e avanzateAlto
Funzionalità di Qualità DatiPulizia, validazione, deduplicazione, profilazioneAlto
Scalabilità e PerformanceCapacità di gestire grandi volumi di dati in modo efficienteAlto
Facilità d’UsoInterfaccia intuitiva e semplicità di implementazioneMedio
Sicurezza e ConformitàMisure di sicurezza robuste e certificazioni di conformitàAlto
Integrazione con Sistemi EsistentiCompatibilità con data warehouse, BI tool, ecc.Medio
CostoCosto totale di proprietà (licenze, implementazione, manutenzione)Alto
SupportoDisponibilità di documentazione e assistenza clientiMedio
Adattabilità FuturaCapacità di evolvere con le esigenze e le tecnologieMedio

Soluzioni ETL più popolari

Al fine di fornire un quadro quanto più possibile completo del contesto di riferimento, sono descritti di seguito i principali prodotti ETL presenti sul mercato, per ognuno dei quali sono riportati dettagli relativi ai Casi d’Uso tipici, ai punti di forza ed alle principali criticità.

Soluzioni integrate nelle principali piattaforme Cloud

ProdottoAWS Glue
DescrizioneServizio ETL/ELT serverless e completamente gestito su AWS. Integra un Data Catalog per la gestione dei metadati, crawler per scoprire automaticamente schemi dati da sorgenti come S3 e RDS, e motori di esecuzione basati su Apache Spark (per batch) e Ray (per Python shell). Offre Glue Studio, un’interfaccia visuale drag-and-drop per creare job ETL, e la possibilità di scrivere script custom in Python o Scala. Include funzionalità di Data Quality per definire e monitorare regole sulla qualità dei dati e Glue DataBrew per la preparazione visuale dei dati da parte di analisti. Supporta job di streaming ETL.
Casi d’Uso Tipici:Data lake hydration su S3, preparazione dati per Redshift o altri data warehouse/database su AWS, ETL serverless per carichi di lavoro variabili, integrazione dati all’interno dell’ecosistema AWS.
ProIntegrazione profonda con AWS, serverless (nessuna infrastruttura da gestire), scalabilità automatica, modello pay-as-you-go, Data Catalog integrato.
ControPuò diventare costoso per job molto lunghi o ad alta intensità di risorse, interfaccia visuale a volte meno intuitiva di altre, forte dipendenza dall’ecosistema AWS (vendor lock-in).

Fonte Principale: https://aws.amazon.com/glue/


Prodotto
Azure Data Factory (ADF)
DescrizioneServizio di orchestrazione e integrazione dati cloud di Azure. Fornisce un’ampia libreria di connettori (+100) per sorgenti on-premises e cloud. Offre un’interfaccia visuale potente per creare pipeline complesse (ETL e ELT) senza codice o con poco codice. Supporta l’esecuzione di trasformazioni tramite Mapping Data Flows (visuali, scalano su cluster Spark gestiti da Azure) o tramite codice eseguito su vari motori di calcolo (es. Azure Databricks, Azure SQL, Azure Synapse Analytics). Include funzionalità di orchestrazione avanzate, scheduling e monitoring. Si integra nativamente con Azure DevOps/GitHub per CI/CD.
Casi d’Uso Tipici:Interfaccia visuale matura e potente, vasta libreria di connettori, ottima integrazione con ecosistema Azure, scalabilità gestita, funzionalità di orchestrazione robuste.
ProIntegrazione profonda con AWS, serverless (nessuna infrastruttura da gestire), scalabilità automatica, modello pay-as-you-go, Data Catalog integrato.
ControIl modello di prezzo basato su molteplici metriche (attività, integrazione runtime, ore vCore per data flow) può essere complesso da prevedere, alcune trasformazioni avanzate potrebbero richiedere l’uso di servizi esterni come Databricks.

Fonte: https://azure.microsoft.com/it-it/products/data-factory

ProdottoGoogle Cloud Data Fusion / Dataproc
DescrizioneData Fusion: Servizio di integrazione dati fully managed basato sul progetto open-source CDAP. Offre un’interfaccia grafica user-friendly per creare pipeline ETL/ELT con una libreria di connettori e trasformazioni predefinite. Enfatizza la facilità d’uso e la data lineage visuale. Esegue le pipeline su cluster Dataproc (Spark) effimeri o pre-esistenti. Dataproc: Servizio gestito per eseguire cluster Apache Spark, Hadoop, Flink, etc. Ottimo per eseguire job ETL/ELT complessi scritti in codice (Python, Scala, Java, SQL) su larga scala, offrendo maggiore controllo e flessibilità rispetto a Data Fusion ma richiedendo più competenze di programmazione.
Casi d’Uso Tipici:Data Fusion Integrazione dati self-service per analisti, ETL visuale per BigQuery. Dataproc Elaborazione Big Data basata su Spark/Hadoop, ETL code-first su larga scala, migrazione di carichi Hadoop/Spark esistenti su GCP.
Pro(Data Fusion) Facilità d’uso, interfaccia visuale, basato su open source. (Dataproc) Flessibilità, controllo, supporto per vari framework open source, integrazione con GCP.
Contro(Data Fusion) Libreria di connettori/trasformazioni potrebbe essere meno estesa di ADF/IICS, costi legati ai cluster Dataproc sottostanti. (Dataproc) Richiede competenze Spark/Hadoop, gestione cluster (seppur semplificata).

Soluzioni Cloud Specializzate (SaaS/PaaS)

ProdottoFivetran
DescrizionePiattaforma focalizzata sull’ELT (Extract, Load, Transform). Si specializza nel fornire connettori pre-ingegnerizzati, estremamente affidabili e pronti all’uso per centinaia di sorgenti dati (applicazioni SaaS, database, eventi). Automatizza l’estrazione, la normalizzazione di base e il caricamento nel data warehouse cloud (Snowflake, BigQuery, Redshift, etc.). Le trasformazioni complesse sono pensate per essere eseguite dopo il caricamento, tipicamente usando SQL o strumenti come dbt (Fivetran offre integrazione con dbt). Gestisce automaticamente cambiamenti di schema (schema drift).
Casi d’Uso Tipici:Replicare dati da molteplici applicazioni SaaS (Salesforce, Marketo, Google Ads) e database nel data warehouse per analisi centralizzata, ingestion dati rapida e a bassa manutenzione.
ProEstrema facilità d’uso (setup in pochi minuti), connettori robusti e auto-manutenuti, alta affidabilità, focus sull’automazione EL.
ControModello di prezzo basato su MAR (Monthly Active Rows) può diventare costoso con sorgenti ad alto volume/variabilità, capacità di trasformazione native limitate (richiede strumenti esterni come dbt), meno flessibile per ETL complesso pre-caricamento.

Fonte rincipale: https://www.fivetran.com/

ProdottoMatillion
DescrizionePiattaforma di integrazione dati progettata specificamente per sfruttare la potenza dei data warehouse cloud (Snowflake, Redshift, BigQuery, Synapse, Databricks). Offre un’interfaccia visuale low-code/no-code per costruire pipeline ETL e ELT. La sua forza risiede nella capacità di “spingere” (push-down) le logiche di trasformazione direttamente nel data warehouse di destinazione, massimizzando le performance. Include componenti per l’orchestrazione, la gestione degli ambienti e la collaborazione.
Casi d’Uso Tipici:Sviluppo ETL/ELT specifico per un data warehouse cloud, trasformazione di grandi volumi di dati direttamente nel DWH, migrazione da ETL tradizionali a DWH cloud.
ProOttimizzato per performance su DWH cloud, interfaccia visuale potente, push-down delle trasformazioni, buona gestione dei job.
ControLegato ai DWH cloud supportati, il modello di prezzo basato su crediti/utenti può richiedere attenta gestione, meno focalizzato sull’estrazione da sorgenti SaaS rispetto a Fivetran.

Fonte Principale: https://www.matillion.com/

ProdottoInformatica Intelligent Cloud Services (IICS)
DescrizionePiattaforma iPaaS (Integration Platform as a Service) completa, evoluzione cloud del leader storico PowerCenter. Offre una vasta gamma di servizi su un’unica piattaforma: integrazione dati (ETL/ELT batch e real-time), integrazione applicazioni e API, data quality, master data management, governance (catalogazione). Possiede una libreria di connettori molto estesa e capacità di trasformazione potenti, sia visuali che basate su codice/funzioni avanzate. Architettura basata su microservizi e agent sicuri per connettività ibrida.
Casi d’Uso Tipici:Grandi imprese con esigenze complesse di integrazione dati e applicazioni, modernizzazione da PowerCenter, integrazione ibrida, progetti che richiedono forte governance e data quality.
ProPiattaforma completa e potente, leader di mercato (Gartner), vasta connettività, funzionalità enterprise robuste (governance, qualità, MDM), scalabilità.
ControPuò essere complesso da imparare e gestire, costi di licenza/sottoscrizione generalmente elevati, a volte percepito come “overkill” per esigenze semplici.

Fonte Principale: https://www.informatica.com/it/products/integration-platform-as-a-service.html

Soluzioni open source

ProdottoTalend Open Studio (TOS)
DescrizioneVersione open-source e gratuita della piattaforma Talend. Offre un ambiente di sviluppo grafico (basato su Eclipse) molto ricco per creare job ETL/ELT. Include centinaia di componenti/connettori e trasformazioni. I job vengono generati in codice Java. È molto potente per lo sviluppo individuale o piccoli team. Mancano le funzionalità collaborative, di orchestrazione avanzata, monitoring centralizzato e supporto enterprise presenti nelle versioni commerciali (Talend Cloud/Platform).
Casi d’Uso Tipici:Sviluppo ETL da parte di singoli sviluppatori o piccoli team, progetti con budget limitato, prototipazione, apprendimento dell’ETL visuale.
ProGratuito (licenza Apache), interfaccia grafica potente, vasta libreria di componenti, grande community, genera codice Java ispezionabile.
ControRichiede competenze tecniche per installazione, deployment, scheduling e scaling in produzione; mancanza di funzionalità enterprise nella versione free; il supporto si basa sulla community o è a pagamento.

Fonte Principale: https://www.talend.com/products/talend-open-studio/ (Nota: Talend è stata acquisita da Qlik)

ProdottoAirbyte
DescrizionePiattaforma open-source focalizzata sull’EL (Extract, Load), con l’obiettivo di diventare lo standard per la replicazione dei dati. Offre un catalogo in rapida crescita di connettori (sorgente e destinazione), costruiti secondo specifiche aperte e contribuibili dalla community. Si integra nativamente con strumenti di trasformazione post-load come dbt e con orchestratori come Airflow. Fornisce UI, API e Terraform provider per la gestione. Offre anche una versione Cloud gestita.
Casi d’Uso Tipici:Replicazione dati da sorgenti diverse (API, DB, file) verso data lake o DWH, alternativa open-source a Fivetran, costruzione di piattaforme dati moderne.
ProOpen source (MIT license), catalogo connettori molto ampio e in crescita, focus sulla replicazione affidabile, architettura containerizzata (Docker), integrazione con dbt/Airflow, community attiva.
ControRelativamente giovane rispetto a Talend/Pentaho, le trasformazioni sono intenzionalmente lasciate a strumenti esterni, la qualità/maturità dei connettori può variare (specialmente quelli della community).

Fonte Principale: https://airbyte.com/

Casi applicativi di successo

Una volta che sono state analizzate le soluzioni software fornite dai principali provider internazionali, vediamo alcuni casi d’uso di successo che hanno consentito ad organizzazioni estremamente grandi e strutturate di raggiungere importanti risultati nell’elaborazione e nello sfruttamento del proprio patrimonio informativo.

ShopFully e AWS

Azienda InteressataShopFully
Descrizione del CasoMassimizzazione della velocità di elaborazione di grandi quantità di dati e riduzione dei costi per un’azienda tecnologica italiana che semplifica lo shopping locale con un’infrastruttura legacy non scalabile, affrontando problemi di caricamento dati e necessità di interventi manuali per gestire centinaia di campagne pubblicitarie iperlocali al mese.
Prodotti e Tecnologie UtilizzateAWS Glue, Amazon CloudFront, Lambda@Edge, Amazon Data Firehose, Amazon S3
ObiettiviRimuovere il carico di supportare applicazioni in tempo reale dal data warehouse, ottimizzare i tempi di elaborazione dati, scalare automaticamente con la crescita, migliorare l’efficienza della pipeline dati e semplificare le operazioni con soluzioni serverless.
Risultati RaggiuntiElaborazione di 100 milioni di eventi in meno di 20 minuti, riduzione del 30% dei costi della pipeline dati, miglioramento di 6 volte dell’efficienza della pipeline dati, semplificazione delle operazioni con soluzioni serverless, scalabilità per petabyte di dati, risparmio di tempo per gli sviluppatori e gestione delle campagne quasi in tempo reale.
FonteAWS (https://aws.amazon.com/solutions/case-studies/shopfully-case-study/)

Aramex e Matillion ETL per Amazon Redshift

Azienda InteressataAramex, azienda globale di logistica e trasporti fondata nel 1982 con sede a Dubai, che offre servizi di logistica, trasporto espresso e e-commerce in oltre 600 uffici in più di 65 paesi.
Descrizione del CasoAramex necessitava di migliorare le proprie capacità di elaborazione dei dati per accelerare l’implementazione di modelli di machine learning e ridurre i costi del call center.
Prodotti e Tecnologie UtilizzateMatillion ETL per Amazon Redshift.
ObiettiviAccelerare l’implementazione di modelli di machine learning per ottenere insight più rapidamente e migliorare le operazioni. Ridurre il volume di chiamate in entrata al call center per diminuire i costi operativi e migliorare l’efficienza del servizio clienti. Migliorare la capacità di ingestione e la scalabilità dei dati per gestire volumi elevati e picchi di domanda in modo efficiente.
Risultati RaggiuntiImplementazione di 200 modelli di machine learning in un anno, che effettuano 500.000 previsioni ogni giorno. Riduzione di oltre il 40% delle chiamate in entrata al call center, portando a significativi risparmi sui costi operativi. Capacità di ingestire oltre 250.000 record ogni 15 minuti, con la possibilità di scalare fino a 10 volte durante i picchi di domanda.
FonteMatillion (https://www.matillion.com/success-stories/aramex).

Smart Data e Azure

Azienda InteressataSmart Data è un’azienda che fornisce soluzioni di gestione dei dati, aiutando i clienti a semplificare i processi di gestione dei dati e a fornire preziose informazioni sulle loro operazioni aziendali.
Descrizione del CasoSecondo quanto riporta Smart Data, un proprio cliente utilizzava applicazioni interne sviluppate e gestite separatamente da diversi team per le attività di caricamento dei dati. Con la crescita del business, prevedeva un aumento del fabbisogno di trasferimento dati e cercava un prodotto stabile in grado di gestire carichi pesanti, elaborare i dati in orari programmati e fornire notifiche agli stakeholder. Inizialmente, il progetto prevedeva la lettura di file Excel, l’estrazione e il trasferimento dei dati in un database Azure SQL.
Prodotti e Tecnologie UtilizzateAzure Data Factory, Azure SQL Database, Azure Logic Apps, Azure Key Vault, Azure Storage, Azure DevOps.
ObiettiviAutomatizzare il processo ETL per ridurre lo sforzo di manutenzione e i costi associati alla gestione manuale dei dati. Gestire carichi di dati elevati in modo affidabile e puntuale, assicurando che i dati siano elaborati secondo le scadenze previste. Fornire notifiche via email agli stakeholder in caso di trasferimento dati riuscito o non riuscito, con informazioni dettagliate sull’elaborazione per una maggiore trasparenza. Mantenere i file raw originali e tenere traccia di ogni file elaborato per garantire la conformità e la possibilità di audit.
Risultati RaggiuntiFornitura di una soluzione robusta e futuristica basata su Azure Data Factory e Logic Apps, che ha liberato le risorse di sviluppo dal compito di creare applicazioni per il caricamento dei dati, permettendo loro di concentrarsi su attività più strategiche. Semplificazione dei processi di gestione dei dati, rendendo più efficiente l’elaborazione e il trasferimento delle informazioni. Intenzione di estendere l’uso di ADF per tutti i processi ETL futuri, indicando la soddisfazione del cliente con la soluzione implementata.
FonteSmart Data (https://www.smartdata.net/azure-data-factory-solution-case-study/).

EOH e Qlik Talend

Azienda InteressataEOH, primario operatore IT africano fondato nel 1998, che opera come la principale società tecnologica all’interno del Gruppo EOH, con una comprovata esperienza nella fornitura di servizi IT e Operational Technology (OT) professionali a diversi clienti.
Descrizione del CasoEOH, in previsione di una profonda revisione dei propri sistemi ERP, aveva la necessità di creare un’unica fonte di master data verificata e affidabile. La loro architettura dati frammentata causava inefficienze e aumentava il rischio di imprecisioni e duplicazioni.
Prodotti e Tecnologie UtilizzateQlik Talend.
ObiettiviSemplificare e ottimizzare i flussi di dati tra più sistemi per migliorare l’efficienza. Ridurre le ridondanze e migliorare l’accuratezza dei dati per garantire informazioni affidabili. Aumentare l’efficienza operativa complessiva dell’azienda. Migliorare la conformità agli standard di sicurezza dei dati per proteggere le informazioni sensibili. Consentire un processo decisionale più informato in tutta l’organizzazione grazie a dati di qualità. Creare una base dati solida per futuri progetti e strategie basate sull’analisi.
Risultati RaggiuntiFlussi di dati semplificati e ottimizzati tra più sistemi, con una significativa riduzione delle ridondanze e un miglioramento dell’accuratezza dei dati. Maggiore efficienza operativa e migliore conformità agli standard di sicurezza dei dati. Processo decisionale più informato grazie a dati affidabili. Creazione di una solida base per futuri casi d’uso, applicazioni e funzionalità, supportando la crescita e l’innovazione dell’azienda.
FonteQlik (https://www.qlik.com/us/solutions/customers/customer-stories/eoh e https://www.qlik.com/us/resource-library/eoh-customer-story).

Sfide comuni nell’implementazione di un sistema ETL

Accanto agli innumerevoli vantaggi descritti in precedenza, l’implementazione di un sistema ETL può presentare diverse sfide, tra le quali particolare importanza rivestono le seguenti:

  • Al fine di garantire la qualità dei dati, poiché i sistemi sorgente possono contenere dati inconsistenti, incompleti o errati, è necessario implementare meccanismi robusti per la profilazione e la pulizia dei dati.
  • La complessità dell’integrazione dei dati residenti in un gran numero di fonti eterogenee con formati e strutture diverse richiede strumenti con ampie capacità di connettività e trasformazione.
  • Per prevenire fisiologici colli di bottiglia nelle prestazioni è necessario implementare tecniche di ottimizzazione come l’elaborazione parallela e il caricamento incrementale.
  • La scalabilità rappresenta un elemento di preoccupazione, poiché il sistema ETL deve essere in grado di gestire volumi di dati e richieste di elaborazione crescenti nel tempo.
  • La governance e la sicurezza dei dati sono cruciali, richiedendo l’implementazione e la manutenzione di misure di sicurezza e conformità durante l’intero processo ETL.
  • La gestione dei metadati, ovvero il tracciamento della provenienza e delle trasformazioni applicate ai dati, può essere complessa e richiede strumenti con funzionalità specifiche.
  • E’ necessario implementare meccanismi efficaci per la gestione degli errori e il monitoraggio durante il processo ETL.
  • I cambiamenti nelle fonti di dati e nei requisiti aziendali richiedono che le pipeline ETL siano sufficientemente flessibili da adattarsi.
  • I costi associati agli strumenti ETL, all’infrastruttura e al personale devono essere attentamente valutati .
  • La mancanza di risorse qualificate per implementare e gestire sistemi ETL complessi può comportare problemi di implementazione.

L’ETL nel contesto del cloud computing

Grazie alle note caratteristiche di scalabilità ed elasticità che ne hanno decretato un successo ed una adozione ormai planetarie, il cloud computing ha avuto un impatto significativo anche sul processo ETL, offrendo, tra gli altri, i seguenti vantaggi:

  • Le risorse possono essere incrementate o contratte in base alle esigenze di elaborazione.
  • E’ superata la necessità di investimenti iniziali in hardware e la manutenzione continua dell’infrastruttura, grazie anche a modelli di prezzo pay-as-you-go, che permettono di ottimizzare i costi.
  • Gli ambienti cloud forniscono una vasta gamma di servizi di archiviazione ed elaborazione dei dati con i quali l’ETL può integrarsi esaltando le proprie caratteristiche di aggregazione ed arricchimento delle informazioni.
  • Sono generalmente garantiti dai provedier specifici connettori predefiniti per vari servizi cloud e data store.
  • La manutenzione ridotta rappresenta un ulteriore indubbio vantaggio, poiché i provider cloud si occupano della manutenzione dell’infrastruttura.
  • Le piattaforme cloud investono molto in sicurezza e conformità dei dati, offrono funzionalità di collaborazione per i team, supportano ambienti cloud ibridi e multi-cloud e si integrano perfettamente con altri servizi quali data warehousing, analytics e machine learning offerti dallo stesso provider.

Integrazione ETL con l’intelligenza artificiale e il machine learning

E’ immediatamente comprensibile come i processi ETL risultino fondamentali nelle fasi di preparazione dei dati da fornire ai sistemi di intelligenza artificiale e machine learning, grazie alle attività di estrazione, pulizia, trasformazione e centralizzazione delle informazioni che rappresentano passaggi propedeutici fondamentali per assicurare la qualità dei dati utilizzati per l’addestramento dei modelli cognitivi artificiali.

E’ importante, in tale contesto, sottolineare come le pipeline ETL possano essere automatizzate per alimentare continuamente i sistemi AI/ML con dati aggiornati e trasformati, consentendo l’apprendimento continuo e il miglioramento del modello.

L’IA, d’altro canto, può automatizzare attività come la profilazione, la pulizia e la mappatura degli schemi dei dati, oltre a identificare anomalie e migliorare la qualità dei dati mentre l’utilizzo dell’ETL in tempo reale (conosciuto anche come “streaming ETL”) per fornire dati ai modelli AI/ML consente di ottenere informazioni e azioni immediate, abbattendo i ritardi ed i tradizionali tempi di latenza.

EU Stories - La coesione innova l'Italia

Tutti
L'ANALISI
INIZIATIVE
ANALISI
PODCAST
Video&podcast
Analisi
VIDEO&PODCAST
Video & Podcast
Social
Iniziative
L'APPROFONDIMENTO
Open Data, più trasparenza e innovazione con i fondi Ue
IL WHITE PAPER
Verso una Sicilia sostenibile: innovazione e rigenerazione urbana
Le proposte
Riforma della politica di coesione Ue: nuove priorità per sfide globali
IL WHITE PAPER
AMBIENTE: i progetti finanziati dalla politica di coesione
INNOVAZIONE
Agricoltura e rinnovabili: agrivoltaico come simbiosi tra energia e food
SCENARI
Sviluppo delle Comunità energetiche rinnovabili: Sicilia capofila
IL PROGETTO
Economia blu sostenibile: BYTHOS trasforma gli scarti di pesce per la salute umana
IL WHITE PAPER
Innovazione e coesione: la trasformazione digitale della Campania con il PO FESR
BANDA ULTRALARGA
Piano Italia 5G, i fondi coesione driver di innovazione
IL PROGETTO
5GMed, ecco i quattro casi d’uso per la mobilità europea
L'APPELLO
Banda 6GHz chiave di volta del 6G: le telco europee in pressing su Bruxelles
EU COMPASS
Tlc, l’Europa adotta la linea Draghi: ecco la “bussola” della nuova competitività
ECONOMIE
EU Stories, il podcast | Politica industriale in Puglia: attrazione di talenti creativi e investimenti esteri grazie ai fondi di coesione
L'APPROFONDIMENTO
La coesione è ricerca e innovazione. Long form sugli impatti del FESR 2014-2020 nel quadro della Strategia di Specializzazione Intelligente a favore della ricerca e dell’innovazione
L'APPROFONDIMENTO
Pnrr e banda ultralarga: ecco tutti i fondi allocati e i target
L'ANNUARIO
Coesione e capacità dei territori
INNOVAZIONE
EU Stories | Dalla produzione industriale a fucina di innovazione: come il Polo universitario della Federico II a San Giovanni a Teduccio ha acceso il futuro
L'INIZIATIVA
DNSH e Climate proofing: da adempimento ad opportunità. Spunti e proposte dal FORUM PA CAMP Campania
INNOVAZIONE
EU Stories, il podcast | Laboratori Aperti: riqualificazione e innovazione in 10 città dell’Emilia-Romagna
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
L'APPROFONDIMENTO
Open Data, più trasparenza e innovazione con i fondi Ue
IL WHITE PAPER
Verso una Sicilia sostenibile: innovazione e rigenerazione urbana
Le proposte
Riforma della politica di coesione Ue: nuove priorità per sfide globali
IL WHITE PAPER
AMBIENTE: i progetti finanziati dalla politica di coesione
INNOVAZIONE
Agricoltura e rinnovabili: agrivoltaico come simbiosi tra energia e food
SCENARI
Sviluppo delle Comunità energetiche rinnovabili: Sicilia capofila
IL PROGETTO
Economia blu sostenibile: BYTHOS trasforma gli scarti di pesce per la salute umana
IL WHITE PAPER
Innovazione e coesione: la trasformazione digitale della Campania con il PO FESR
BANDA ULTRALARGA
Piano Italia 5G, i fondi coesione driver di innovazione
IL PROGETTO
5GMed, ecco i quattro casi d’uso per la mobilità europea
L'APPELLO
Banda 6GHz chiave di volta del 6G: le telco europee in pressing su Bruxelles
EU COMPASS
Tlc, l’Europa adotta la linea Draghi: ecco la “bussola” della nuova competitività
ECONOMIE
EU Stories, il podcast | Politica industriale in Puglia: attrazione di talenti creativi e investimenti esteri grazie ai fondi di coesione
L'APPROFONDIMENTO
La coesione è ricerca e innovazione. Long form sugli impatti del FESR 2014-2020 nel quadro della Strategia di Specializzazione Intelligente a favore della ricerca e dell’innovazione
L'APPROFONDIMENTO
Pnrr e banda ultralarga: ecco tutti i fondi allocati e i target
L'ANNUARIO
Coesione e capacità dei territori
INNOVAZIONE
EU Stories | Dalla produzione industriale a fucina di innovazione: come il Polo universitario della Federico II a San Giovanni a Teduccio ha acceso il futuro
L'INIZIATIVA
DNSH e Climate proofing: da adempimento ad opportunità. Spunti e proposte dal FORUM PA CAMP Campania
INNOVAZIONE
EU Stories, il podcast | Laboratori Aperti: riqualificazione e innovazione in 10 città dell’Emilia-Romagna
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 3