Thor Olavsrud
Senior Writer

Che cosa sono le DataOps? Tra analisi collaborative e funzionalità cross

In evidenza
13 Jun 20238 minuti
Gestione dei dati

Le DataOps (tutte le operazioni che riguardano i dati) riuniscono i team di sviluppo (DevOps) con i data engineer e i data scientist per fornire gli strumenti e sviluppare i processi e le competenze necessarie a rendere un’azienda data-driven

Che cosa sono le DataOps?

Per DataOps (Data Operations) si intende una metodologia agile orientata ai processi per lo sviluppo e per la fornitura di analisi. Riunisce i team DevOps con i data engineer e i data scientist allo scopo di fornire gli strumenti, i processi e le strutture organizzative necessarie a supportare un’azienda data-driven. La società di ricerche Gartner descrive la sua efficacia con il “miglioramento della comunicazione, dell’integrazione e dell’automazione dei flussi di dati tra chi, all’interno di un’impresa, li gestisce, e tra chi li utilizza.

Quali sono gli obiettivi delle DataOps

Secondo Dataversity [in inglese], il principale obiettivo delle DataOps è quello di semplificare la progettazione, lo sviluppo e la manutenzione delle applicazioni basate sui dati e sulla loro analisi. Tra le sue prerogative, si può, infatti, annoverare, in primo piano, il miglioramento dei modi con i quali i dati vengono gestiti per creare i prodotti, e il coordinamento dei progressi raggiunti grazie a loro con gli obiettivi dell’azienda. Secondo Gartner, DataOps ha anche lo scopo di “fornire valore più velocemente creando un iter produttivo prevedibile e una gestione delle modifiche dei dati, dei modelli di dati e dei relativi artefatti”.

DataOps vs DevOps

DevOps è una metodologia di sviluppo software che introduce la continuous delivery nel ciclo di vita dello sviluppo dei sistemi, combinando i team di sviluppo e i team operativi in un’unica unità responsabile di un prodotto o di un servizio. Le DataOps si basano su questo concetto aggiungendo gli specialisti dei dati – analisti [in inglese], sviluppatori, ingegneri [in inglese] e/o scienziati [in inglese] – per concentrarsi sullo sviluppo collaborativo dei flussi di dati e sul loro utilizzo continuativo in tutte le attività dell’impresa.

DataKitchen, specializzata in software di analisi e automazione DataOps, sostiene [in inglese] che quest’ultima non è semplicemente una “DevOps per i dati”, poiché anche se entrambe le pratiche mirano ad accelerare lo sviluppo software, DataOps, sfruttando gli analytics, deve gestire, contemporaneamente, anche le operazioni sui dati.

I principi delle DataOps

Come DevOps, anche DataOps prende spunto dalla metodologia agile [in inglese]. L’approccio valorizza la fornitura continua di approfondimenti analitici con l’obiettivo primario di soddisfare il cliente.

Secondo il Manifesto DataOps [in inglese], i team apprezzano le analisi dei dati che funzionano misurando le loro prestazioni in base agli approfondimenti che forniscono. Inoltre, abbracciano il cambiamento e cercano di comprendere costantemente l’evoluzione delle esigenze dei clienti. Si auto-organizzano intorno agli obiettivi e cercano di ridurre l’“eroismo” a favore di processi sostenibili e scalabili.

Inoltre, i gruppi di lavoro DataOps cercano di orchestrare dati, strumenti, codice e ambienti dall’inizio alla fine dei processi, con l’obiettivo di fornire risultati riproducibili e di considerare le pipeline analitiche come analoghe a quelle di produzione snella, e si riflettono con regolarità sui feedback forniti da clienti, membri del team e statistiche operative.

Dove le DataOps lavorano al meglio

Sempre più frequentemente, oggi, le imprese inseriscono l’apprendimento automatico in una vasta gamma di prodotti e di servizi e, con il suo approccio, DataOps rappresenta un ottimo modo per supportarne le esigenze end-to-end.

“Questo rende più semplice ai data scientist supportare gli ingegneri software nella fornitura di ciò che è necessario quando i modelli vengono consegnati alle operations durante la fase di implementazione”, scrivono Ted Dunning ed Ellen Friedman nel loro libro Machine Learning Logistics.

“Tuttavia, l’approccio DataOps non è limitato all’apprendimento automatico”, aggiungono. “Tale stile di organizzazione dei processi è utile a qualsiasi lavoro orientato ai dati, rendendo più facile sfruttarne i vantaggi offerti dalla costruzione di un tessuto globale”.

Inoltre, le DataOps si adattano bene alle architetture strutturate in microservizi.

Le DataOps in concreto

Secondo Dunning e Friedman, per sfruttare al meglio le DataOps, le aziende devono far evolvere le proprie strategie di gestione dei dati per gestirli su scala e in risposta agli eventi del mondo reale, nel momento in cui si verificano.

Poiché DataOps si basa su DevOps, è essenziale che i team siano interfunzionali e che, attraversino insiemi di competenze che vanno dalle operations all’ingegneria del software, all’architettura e alla pianificazione alla gestione dei prodotti, senza contare l’analisi, lo sviluppo e l’ingegneria dei dati; inoltre, i team DataOps dovrebbero essere gestiti in modo da garantire una maggiore collaborazione e comunicazione tra sviluppatori, professionisti delle operazioni ed esperti di dati.

Secondo Dunning, anche i data scientist possono essere inclusi, come membri-chiave, nei team DataOps. “Credo che la cosa più importante da fare, in questo caso, sia evitare di restare nella classica “torre d’avorio”, in cui i data scientist vivono separati dai team di sviluppo”, afferma Dunning. “Al contrario, il passo più importante che si possa compiere è incorporare i data scientist in un team DevOps. Quando vivono nella stessa stanza, mangiano gli stessi pasti e sentono le stesse lamentele, si allineano in modo naturale”.

Tuttavia, Dunning osserva anche che non è necessario inserire i data scientist in modo permanente in un team DataOps.

“In genere, un data scientist viene inserito nel team per un certo periodo di tempo”, afferma Dunning. “Le sue capacità e la sua sensibilità cominciano a essere trasmesse, dopodiché qualcuno del team assume il ruolo di ingegnere dei dati e di una sorta di data scientist a basso costo. A quel punto, il data scientist vero e proprio si trasferisce. È una situazione tipica”.

Come creare un team DataOps

La maggior parte delle aziende basate su DevOps ha già a disposizione il nucleo di un team DataOps e, pertanto, una volta identificati i progetti che richiedono uno sviluppo ad alta intensità di dati, è sufficiente aggiungere al team una persona con una formazione specifica su di essi. Spesso questa persona è un data engineer piuttosto che un data scientist. DataKitchen suggerisce alle aziende di cercare ingegneri DataOps specializzati nella creazione e nell’implementazione dei processi che consentono il lavoro di squadra all’interno delle operazioni sui dati. Queste persone progettano le orchestrazioni che permettono al lavoro di fluire dallo sviluppo alla produzione, e assicurano che hardware, software, dati e altre risorse siano disponibili su richiesta.

Molti team sono composti da persone con competenze che si sovrappongono, oppure i singoli possono assumere più ruoli in un team DataOps, a seconda delle competenze.

Secondo Michele Goetz, vicepresidente e principal analyst di Forrester, alcune delle principali aree di competenza dei team DataOps includono:

  • Database
  • Integrazione
  • Orchestrazione dei dati e dei processi
  • Distribuzione dei criteri dei dati
  • Integrazione di dati e modelli
  • Controlli sulla sicurezza e sulla privacy dei dati

Indipendentemente dalla loro composizione, i team DataOps devono condividere un obiettivo comune: le esigenze dei servizi che supportano, basate sui dati.

I ruoli nelle DataOps

Secondo Goetz, i membri del team DataOps comprendono:

  • Data specialists, che supportano il panorama dei dati e le best practice di sviluppo
  • Data engineers, che forniscono supporto ad hoc e di sistema a BI, analisi e applicazioni aziendali.
  • Principal data engineers, che sono sviluppatori impegnati sui prodotti e sulla customer-facing deliverables.

Quanto si guadagna nelle DataOps

Ecco alcune delle professionalità più popolari relativi alle DataOps e gli stipendi medi per ciascuna posizione, secondo i dati di PayScale [in inglese]:

I principali strumenti delle DataOps

Di seguito, alcuni degli strumenti DataOps più popolari:

  • Census: Una piattaforma di analisi operativa specializzata nell’ETL inverso, il processo di sincronizzazione dei dati da una fonte di verità (come un data warehouse) a sistemi frontline come CRM, piattaforme pubblicitarie, eccetera.
  • Databricks Lakehouse Platform: una piattaforma di gestione dei dati che unifica il data warehousing con l’intelligenza artificiale.
  • Datafold: Una piattaforma specializzata nell’individuare e risolvere i problemi relativi alla qualità dei dati.
  • DataKitchen: Una piattaforma per l’osservabilità e l’automazione dei dati che orchestra pipeline di dati end-to-end multi-strumento e multi-ambiente.
  • Dbt: Uno strumento di trasformazione dei dati per la creazione di pipeline di dati
  • Tengu: Una piattaforma di orchestrazione DataOps per la gestione di dati e pipeline
Thor Olavsrud
Senior Writer

Thor Olavsrud covers data analytics, business intelligence, and data science for CIO.com. He resides in New York.