Azure Databricks.
AZURE DATABRICKS
Azure Databricks combina data warehouse e data lake in un'architettura lakehouse. Unifica tutti i tuoi dati, le analisi e l'intelligenza artificiale su un'unica piattaforma.
Che cos'è Azure Databricks?
Azure Databricks è una piattaforma di analisi unificata che consente alle organizzazioni di creare pipeline di dati, modelli di machine learning e dashboard su larga scala. Si tratta di un servizio completamente gestito che funziona su Azure e fornisce uno spazio di lavoro unificato in cui data scientist, data engineer e business analyst possono collaborare ai progetti.
Azure Databricks è basato su Apache Spark, un popolare framework di elaborazione distribuita open source. Fornisce un ambiente Spark ottimizzato, oltre a una suite di strumenti e funzionalità che semplificano la creazione e la distribuzione di applicazioni di analisi e intelligenza artificiale.
Azure Databricks è una scelta popolare per una varietà di casi d'uso, tra cui:
- Ingegneria dei dati: Azure Databricks può essere utilizzato per creare e gestire pipeline di dati che elaborano e trasformano grandi set di dati.
- Apprendimento automatico: Azure Databricks offre una vasta gamma di strumenti e librerie per la creazione e l'implementazione di modelli di apprendimento automatico.
- Business intelligence: Azure Databricks può essere utilizzato per creare dashboard e report che forniscono approfondimenti sui dati.
Azure Databricks è anche strettamente integrato con altri servizi Azure, come Azure Storage, Azure SQL Database e Azure Machine Learning Studio. Ciò semplifica la creazione e la distribuzione di soluzioni di analisi e IA end-to-end su Azure.
Ecco alcuni dei vantaggi dell'utilizzo di Azure Databricks:
- Piattaforma unificata: Azure Databricks offre un'unica piattaforma per l'ingegneria dei dati, la scienza dei dati e la business intelligence. Ciò semplifica la collaborazione tra i team sui progetti e la condivisione dei dati.
- Scalabilità: Azure Databricks è in grado di scalare per soddisfare le esigenze dei carichi di lavoro più impegnativi. Può gestire petabyte di dati e migliaia di utenti simultanei.
- Prestazioni: Azure Databricks è ottimizzato per le prestazioni ed è in grado di fornire informazioni dettagliate dai dati in modo rapido ed efficiente.
- Facilità d'uso: Azure Databricks è facile da usare e offre una varietà di strumenti e funzionalità che aiutano gli utenti a iniziare rapidamente.
Nel complesso, Azure Databricks è una piattaforma di analisi potente e versatile che può essere utilizzata per risolvere un'ampia gamma di problemi. È una buona scelta per le organizzazioni di tutte le dimensioni che desiderano creare e implementare soluzioni di analisi e IA end-to-end.
La migliore architettura Azure Databricks
La migliore architettura Azure Databricks dipende dalle esigenze specifiche della tua organizzazione e dai casi d'uso che intendi supportare. Tuttavia, esistono alcune best practice generali che puoi seguire per progettare un'architettura scalabile, efficiente e sicura.
Ecco alcuni suggerimenti per progettare la migliore architettura Azure Databricks:
- Utilizza un'architettura a livelli:un'architettura a livelli separa i dati e i carichi di lavoro in diversi livelli, come una landing zone, un data lake e un data warehouse. Ciò semplifica la gestione dei dati e dei carichi di lavoro, migliorando anche le prestazioni e la sicurezza.
- Utilizza Delta Lake:Delta Lake è un formato di archiviazione open source che offre transazioni ACID e altre funzionalità che lo rendono ideale per l'archiviazione dei dati in Azure Databricks. È inoltre compatibile con Spark, quindi puoi utilizzare il codice Spark esistente per elaborare e trasformare i tuoi dati.
- Utilizza il ridimensionamento automatico:il ridimensionamento automatico consente ad Azure Databricks di ridimensionare automaticamente i cluster in base alla domanda. Ciò può aiutarti a risparmiare sui costi di elaborazione.
- Utilizza i servizi gestiti:Azure Databricks offre una vasta gamma di servizi gestiti, come i notebook gestiti e lo streaming gestito. Questi servizi possono aiutarti a ridurre i costi operativi legati alla gestione dell'ambiente Azure Databricks.
- Utilizza le funzionalità di sicurezza:Azure Databricks offre una serie di funzionalità di sicurezza, come il controllo degli accessi basato sui ruoli (RBAC) e la crittografia. Queste funzionalità possono aiutarti a proteggere i tuoi dati e i tuoi carichi di lavoro da accessi non autorizzati.
Ecco un esempio di architettura Azure Databricks a livelli:
- Area di destinazione:l'area di destinazione è un'area di archiviazione temporanea in cui i dati vengono prima importati in Azure Databricks. L'area di destinazione può essere archiviata in Azure Blob Storage o Azure Data Lake Storage Gen2.
- Data lake: il data lake è un archivio centrale per tutti i tuoi dati, indipendentemente dal loro formato o struttura. Il data lake può essere archiviato in Azure Data Lake Blob Storage o Azure Data Lake Storage Gen2.
- Data warehouse: il data warehouse è un archivio dati altamente ottimizzato per l'esecuzione di query analitiche e report. Il data warehouse di Azure può essere archiviato in Azure Synapse Analytics o Azure SQL Database. Vedi le differenze tra un data lake e un data warehouse.
I cluster Azure Databricks possono accedere ai dati nella landing zone e nel data lake per eseguire attività di elaborazione e trasformazione. I dati elaborati e trasformati possono quindi essere caricati nel data warehouse a fini analitici.
Questo è solo un esempio di architettura Azure Databricks. L'architettura specifica che sceglierai dipenderà dalle tue esigenze e dai tuoi casi d'uso specifici.
Ecco alcune best practice aggiuntive per la progettazione di un'architettura Azure Databricks:
- Utilizza un sistema di controllo delle versioni:utilizza un sistema di controllo delle versioni, come Git, per tenere traccia delle modifiche apportate ai tuoi notebook Azure Databricks e ad altro codice. Ciò renderà più facile collaborare con altri e ripristinare le modifiche, se necessario.
- Utilizza i test unitari:utilizza i test unitari per testare il codice Azure Databricks. Questo ti aiuterà a identificare e correggere i bug in una fase precoce.
- Utilizza i test di integrazione:utilizza i test di integrazione per testare il codice Azure Databricks con altri componenti dell'architettura, come le origini dati e il data warehouse. In questo modo potrai assicurarti che l'intera architettura funzioni come previsto.
- Monitorare l'architettura:monitorare l'architettura Azure Databricks per identificare e risolvere eventuali problemi di prestazioni o sicurezza. È possibile utilizzare Azure Databricks Monitoring per monitorare i cluster e i processi.
Seguendo queste best practice, è possibile progettare un'architettura Azure Databricks scalabile, efficiente, sicura e affidabile.
Integrazioni chiave di Databricks con Azure
Databricks offre diverse integrazioni con Azure per fornire un ambiente di analisi dei dati e machine learning potente e senza soluzione di continuità. Queste integrazioni sfruttano le funzionalità dei servizi Azure per migliorare i flussi di lavoro di ingegneria dei dati, scienza dei dati e machine learning.
Ecco le principali integrazioni di Databricks con Azure:
Servizio Azure Databricks: Azure Databricks è una piattaforma gestita di Apache Spark e analisi dei dati strettamente integrata con Azure. Offre un ambiente collaborativo in cui ingegneri e scienziati dei dati possono lavorare insieme su progetti relativi ai big data e all'apprendimento automatico.
Archiviazione blob di Azure: Databricks può integrarsi perfettamente con Azure Blob Storage, facilitando l'accesso e l'elaborazione dei dati archiviati nei contenitori Azure Data Lake Storage o Azure Blob Storage. Questa integrazione consente di leggere e scrivere dati in modo efficiente, migliorando i flussi di lavoro di ingegneria dei dati.
Azure Machine Learning: Databricks può integrarsi con i servizi Azure Machine Learning, consentendo ai data scientist di addestrare e distribuire modelli di machine learning utilizzando i cluster Databricks e quindi di distribuirli facilmente su Azure per l'uso in produzione.
Azure Monitor e Azure Log Analytics: Databricks può integrarsi con Azure Monitor e Azure Log Analytics per fornire funzionalità di monitoraggio, registrazione e diagnostica per i carichi di lavoro Databricks. Questa integrazione aiuta nella messa a punto delle prestazioni e nella risoluzione dei problemi.
Azure Active Directory: il Single Sign-On con Azure Active Directory è il modo migliore per accedere ad Azure Databricks. Azure Databricks supporta anche il provisioning automatico degli utenti con Azure AD per creare nuovi utenti, assegnare loro il livello di accesso appropriato e rimuovere gli utenti per revocare l'accesso.
Archiviazione Azure Data Lake: il connettore nativo Azure Databricks per ADLS supporta diversi metodi di accesso al data lake. Semplifica la sicurezza dell'accesso ai dati utilizzando la stessa identità Azure AD che usi per accedere ad Azure Databricks con Azure Active Directory Credential Passthrough. L'accesso ai dati è controllato tramite i ruoli ADLS e gli elenchi di controllo di accesso già configurati.
Azure Data Factory: esegui senza interruzioni i processi Azure Databricks utilizzando Azure Data Factory e sfrutta oltre 90 connettori di origine dati integrati per importare tutte le tue origini dati in un unico data lake. ADF offre controllo del flusso di lavoro integrato, trasformazione dei dati, pianificazione delle pipeline, integrazione dei dati e molte altre funzionalità che ti aiutano a creare pipeline di dati affidabili.
Azure Synapse Analytics: Azure Databricks si integra con i servizi Azure per riunire analisi, business intelligence (BI) e scienza dei dati nelle applicazioni web e mobili sviluppate da Microsoft. Il connettore ad alte prestazioni tra Azure Databricks e Azure Synapse consente un trasferimento rapido dei dati tra i servizi, compreso il supporto per lo streaming dei dati.
Power BI – Una delle caratteristiche chiave che i clienti ricercano quando adottano una strategia Lakehouse è la possibilità di utilizzare in modo efficiente e sicuro i dati direttamente dal data lake con strumenti di BI. Ciò riduce in genere i costi aggiuntivi di latenza, elaborazione e archiviazione associati al flusso tradizionale di copia dei dati già archiviati in un data lake in un data warehouse per l'utilizzo con la BI. Il connettore Azure Databricks in Power BI offre un'esperienza di visualizzazione dei dati più sicura e interattiva per i dati archiviati nel data lake.
Azure DevOps – Azure Databricks si collega ad Azure DevOps per consentire l'integrazione continua e la distribuzione continua (CI/CD). Configura Azure DevOps come provider Git e sfrutta le funzionalità integrate di controllo della versione.
Rete virtuale Azure: l'implementazione predefinita di Azure Databricks è un servizio completamente gestito su Azure che include una rete virtuale (VNet). Azure Databricks supporta anche l'implementazione nella propria rete virtuale (talvolta denominata VNet injection) che consente il controllo completo delle regole di sicurezza della rete.
Hub eventi Azure: ottieni informazioni dettagliate dai dati in streaming live collegando Azure Event Hubs ad Azure Databricks, quindi elabora i messaggi non appena arrivano. Con Event Hubs e Azure Databricks, trasmetti milioni di eventi al secondo da qualsiasi dispositivo IoT o registri dai clickstream dei siti Web ed elaborali quasi in tempo reale.
Azure Key Vault: gestisci le tue informazioni riservate, come chiavi e password, con l'integrazione ad Azure Key Vault. Per impostazione predefinita, tutti i notebook e i risultati di Azure Databricks vengono crittografati inattivi con una chiave di crittografia diversa. Se desideri possedere e gestire autonomamente la chiave utilizzata per crittografare i tuoi notebook e risultati, puoi utilizzare la tua chiave (BYOK).
Azure confidential computing: i clienti possono eseguire i propri carichi di lavoro Azure Databricks su macchine virtuali (VM) Azure riservate. Grazie al supporto per Azure confidential computing, i clienti possono creare una piattaforma dati end-to-end su Databricks Lakehouse con maggiore riservatezza e privacy, crittografando i dati in uso. Ciò si basa sul supporto per le chiavi gestite dal cliente (CMK) per la crittografia dei dati inattivi.
Prezzi di Azure Databricks
I prezzi di Azure Databricks si basano su due componenti principali:
- Unità Databricks (DBU):le DBU sono un'unità di capacità di elaborazione. Il numero di DBU necessarie dipenderà dalle dimensioni e dalla complessità dei carichi di lavoro.
- Costi di archiviazione:Azure Databricks archivia i dati in Azure Blob Storage o Azure Data Lake Storage Gen2. Ti verranno addebitati i costi di archiviazione associati ai tuoi dati.
Azure Databricks offre una varietà di opzioni di prezzo, tra cui:
- Pay-as-you-go:questa è l'opzione di prezzo più flessibile. Il costo viene addebitato in base al numero di DBU utilizzati e alla quantità di spazio di archiviazione consumato.
- Utilizzo vincolato:questa opzione di prezzo consente di risparmiare denaro se si dispone di carichi di lavoro prevedibili. Ci si impegna ad acquistare un determinato numero di DBU per un periodo di uno o tre anni.
- Istanze spot:le istanze spot possono essere un'opzione conveniente per i carichi di lavoro che non sono sensibili al fattore tempo. Le istanze spot sono disponibili a un prezzo scontato, ma possono essere terminate se Azure necessita della capacità per altri carichi di lavoro.
È possibile utilizzare il calcolatore dei prezzi di Azure Databricks per stimare il costo dei carichi di lavoro di Azure Databricks.
Ecco alcuni consigli per risparmiare su Azure Databricks:
- Utilizza il ridimensionamento automatico:il ridimensionamento automatico consente ad Azure Databricks di ridimensionare automaticamente i cluster in base alla domanda. Ciò può aiutarti a risparmiare sui costi di elaborazione.
- Utilizza i servizi gestiti:Azure Databricks offre una vasta gamma di servizi gestiti, come i notebook gestiti e lo streaming gestito. Questi servizi possono aiutarti a ridurre i costi operativi legati alla gestione dell'ambiente Azure Databricks.
- Utilizza le istanze spot:le istanze spot possono essere un'opzione conveniente per i carichi di lavoro che non sono sensibili al fattore tempo. Le istanze spot sono disponibili a un prezzo scontato, ma possono essere terminate se Azure necessita della capacità per altri carichi di lavoro.
Nel complesso, Azure Databricks offre una varietà di opzioni di prezzo e funzionalità che consentono di risparmiare denaro.
Caratteristiche
Funzionalità del livello Standard |
|||
|---|---|---|---|
| Caratteristica | Calcolo multiuso | Lavori Informatica | Lavori Calcolo leggero |
| Carichi di lavoro interattivi per analizzare i dati in modo collaborativo con i notebook | Carichi di lavoro automatizzati per eseguire operazioni veloci e affidabili tramite API o interfaccia utente | Carichi di lavoro automatizzati per eseguire operazioni affidabili tramite API o interfaccia utente | |
| Apache Spark sulla piattaforma Databricks | Disponibile |
Disponibile |
Disponibile |
| Pianificazione dei lavori con le librerie | Disponibile |
Disponibile |
Disponibile |
| Pianificazione dei lavori con Notebooks | Disponibile |
Disponibile |
Non disponibile |
| Cluster di pilota automatico | Disponibile |
Disponibile |
Non disponibile |
| Databricks Runtime per ML | Disponibile |
Disponibile |
Non disponibile |
| MLflow su Databricks Anteprima | Disponibile |
Disponibile |
Non disponibile |
| Databricks Delta | Disponibile |
Disponibile |
Non disponibile |
| Cluster interattivi | Disponibile |
Non disponibile |
Non disponibile |
| Notebook e collaborazione | Disponibile |
Non disponibile |
Non disponibile |
| Integrazioni ecosistemiche | Disponibile |
Non disponibile |
Non disponibile |
Funzionalità del livello Premium |
|||
| Caratteristica | Calcolo multiuso | Lavori Informatica | Lavori Calcolo leggero |
| Carichi di lavoro interattivi per analizzare i dati in modo collaborativo con i notebook | Carichi di lavoro automatizzati per eseguire operazioni veloci e affidabili tramite API o interfaccia utente | Carichi di lavoro automatizzati per eseguire operazioni affidabili tramite API o interfaccia utente | |
| Include caratteristiche standard | Include caratteristiche standard | Include caratteristiche standard | |
| Controllo degli accessi basato sui ruoli per notebook, cluster, lavori e tabelle | Disponibile |
Disponibile |
Disponibile |
| Autenticazione endpoint JDBC/ODBC | Disponibile |
Disponibile |
Disponibile |
| Registri di controllo | Disponibile |
Disponibile |
Disponibile |
| Tutte le caratteristiche del piano Standard | Disponibile |
Disponibile |
Disponibile |
| Passaggio delle credenziali Azure AD | Disponibile |
Disponibile |
Non disponibile |
| Autenticazione condizionata | Disponibile |
Non disponibile |
Non disponibile |
| Politiche dei cluster (anteprima) | Disponibile |
Disponibile |
Disponibile |
| Elenco di accesso IP (anteprima) | Disponibile |
Disponibile |
Disponibile |
| API di gestione dei token (anteprima) | Disponibile |
Disponibile |
Disponibile |
Caratteristiche delle Delta Live Tables (DLT) |
|||
| Caratteristica | DLT Core | DLT Pro | DLT Avanzato |
| Funzionalità di base | Disponibile |
Disponibile |
Disponibile |
| Acquisizione dei dati modificati | Non disponibile |
Disponibile |
Disponibile |
| Qualità dei dati | Non disponibile |
Non disponibile |
Disponibile |
Supporto per Azure Databricks
Innanzitutto, le aziende devono comprendere che Azure Databricks include solo il supporto Azure di base per impostazione predefinita. È possibile migliorare significativamente il supporto con il supporto unificato per Azure o il supporto di terze parti per Azure presso US Cloud.
Il supporto Azure Databricks è disponibile 24 ore su 24, 7 giorni su 7, 365 giorni all'anno attraverso una varietà di canali, tra cui:
- Portale di supporto:è possibile creare e monitorare i ticket di supporto tramite il portale di supporto Azure Databricks.
- Assistenza tramite chat:è possibile chattare in tempo reale con un tecnico dell'assistenza Microsoft.
- Assistenza telefonica:è possibile chiamare l'assistenza Microsoft e parlare con un tecnico dell'assistenza.
- Supporto della community:è possibile porre domande e ottenere assistenza da altri utenti di Azure Databricks sul forum della community di Azure Databricks.
Il livello di assistenza ricevuto dipende dal piano di assistenza Azure Databricks. Azure Databricks offre una varietà di piani di assistenza, tra cui:
- Assistenza di base:l'assistenza di base è inclusa in tutti gli abbonamenti Azure Databricks. Consente di accedere al portale di assistenza e all'assistenza della community.
- Assistenza standard:l'assistenza standard offre un livello di supporto più elevato, compreso l'accesso all'assistenza tramite chat e telefono.
- Assistenza Premium:l'assistenza Premium offre il massimo livello di supporto, compreso l'accesso a un team di assistenza dedicato.
Puoi scegliere il piano di assistenza più adatto alle tue esigenze e al tuo budget.
Per ottenere assistenza per Azure Databricks, è possibile creare un ticket di assistenza tramite il portale di assistenza Azure Databricks o chattare in tempo reale con un tecnico dell'assistenza Microsoft.
Ecco alcuni suggerimenti per ottenere il massimo dal supporto Azure Databricks con Microsoft o US Cloud:
- Sii specifico:quando crei un ticket di assistenza, descrivi nel modo più dettagliato possibile il problema che stai riscontrando. Ciò consentirà al team di assistenza di risolvere il tuo problema più rapidamente.
- Fornisci informazioni dettagliate:più informazioni riesci a fornire al team di assistenza, meglio è. Queste possono includere informazioni quali i messaggi di errore che ricevi, il codice che stai eseguendo e i dati che stai utilizzando.
- Sii reattivo:il team di assistenza potrebbe doverti porre ulteriori domande per risolvere il tuo problema. Assicurati di rispondere prontamente alle loro domande in modo che possano risolvere il tuo problema il più rapidamente possibile.
Nel complesso, Azure Databricks offre una vasta gamma di opzioni di supporto per aiutarti a ottenere l'assistenza di cui hai bisogno quando ne hai bisogno.
AZURE DATABRICKS
Azure Databricks combina data warehouse e data lake in un'architettura lakehouse. Unifica tutti i tuoi dati, le analisi e l'intelligenza artificiale su un'unica piattaforma.
Che cos'è Azure Databricks?
Azure Databricks è una piattaforma di analisi unificata che consente alle organizzazioni di creare pipeline di dati, modelli di machine learning e dashboard su larga scala. Si tratta di un servizio completamente gestito che funziona su Azure e fornisce uno spazio di lavoro unificato in cui data scientist, data engineer e business analyst possono collaborare ai progetti.
Azure Databricks è basato su Apache Spark, un popolare framework di elaborazione distribuita open source. Fornisce un ambiente Spark ottimizzato, oltre a una suite di strumenti e funzionalità che semplificano la creazione e la distribuzione di applicazioni di analisi e intelligenza artificiale.
Azure Databricks è una scelta popolare per una varietà di casi d'uso, tra cui:
- Ingegneria dei dati: Azure Databricks può essere utilizzato per creare e gestire pipeline di dati che elaborano e trasformano grandi set di dati.
- Apprendimento automatico: Azure Databricks offre una vasta gamma di strumenti e librerie per la creazione e l'implementazione di modelli di apprendimento automatico.
- Business intelligence: Azure Databricks può essere utilizzato per creare dashboard e report che forniscono approfondimenti sui dati.
Azure Databricks è anche strettamente integrato con altri servizi Azure, come Azure Storage, Azure SQL Database e Azure Machine Learning Studio. Ciò semplifica la creazione e la distribuzione di soluzioni di analisi e IA end-to-end su Azure.
Ecco alcuni dei vantaggi dell'utilizzo di Azure Databricks:
- Piattaforma unificata: Azure Databricks offre un'unica piattaforma per l'ingegneria dei dati, la scienza dei dati e la business intelligence. Ciò semplifica la collaborazione tra i team sui progetti e la condivisione dei dati.
- Scalabilità: Azure Databricks è in grado di scalare per soddisfare le esigenze dei carichi di lavoro più impegnativi. Può gestire petabyte di dati e migliaia di utenti simultanei.
- Prestazioni: Azure Databricks è ottimizzato per le prestazioni ed è in grado di fornire informazioni dettagliate dai dati in modo rapido ed efficiente.
- Facilità d'uso: Azure Databricks è facile da usare e offre una varietà di strumenti e funzionalità che aiutano gli utenti a iniziare rapidamente.
Nel complesso, Azure Databricks è una piattaforma di analisi potente e versatile che può essere utilizzata per risolvere un'ampia gamma di problemi. È una buona scelta per le organizzazioni di tutte le dimensioni che desiderano creare e implementare soluzioni di analisi e IA end-to-end.
La migliore architettura Azure Databricks
La migliore architettura Azure Databricks dipende dalle esigenze specifiche della tua organizzazione e dai casi d'uso che intendi supportare. Tuttavia, esistono alcune best practice generali che puoi seguire per progettare un'architettura scalabile, efficiente e sicura.
Ecco alcuni suggerimenti per progettare la migliore architettura Azure Databricks:
- Utilizza un'architettura a livelli:un'architettura a livelli separa i dati e i carichi di lavoro in diversi livelli, come una landing zone, un data lake e un data warehouse. Ciò semplifica la gestione dei dati e dei carichi di lavoro, migliorando anche le prestazioni e la sicurezza.
- Utilizza Delta Lake:Delta Lake è un formato di archiviazione open source che offre transazioni ACID e altre funzionalità che lo rendono ideale per l'archiviazione dei dati in Azure Databricks. È inoltre compatibile con Spark, quindi puoi utilizzare il codice Spark esistente per elaborare e trasformare i tuoi dati.
- Utilizza il ridimensionamento automatico:il ridimensionamento automatico consente ad Azure Databricks di ridimensionare automaticamente i cluster in base alla domanda. Ciò può aiutarti a risparmiare sui costi di elaborazione.
- Utilizza i servizi gestiti:Azure Databricks offre una vasta gamma di servizi gestiti, come i notebook gestiti e lo streaming gestito. Questi servizi possono aiutarti a ridurre i costi operativi legati alla gestione dell'ambiente Azure Databricks.
- Utilizza le funzionalità di sicurezza:Azure Databricks offre una serie di funzionalità di sicurezza, come il controllo degli accessi basato sui ruoli (RBAC) e la crittografia. Queste funzionalità possono aiutarti a proteggere i tuoi dati e i tuoi carichi di lavoro da accessi non autorizzati.
Ecco un esempio di architettura Azure Databricks a livelli:
- Area di destinazione:l'area di destinazione è un'area di archiviazione temporanea in cui i dati vengono prima importati in Azure Databricks. L'area di destinazione può essere archiviata in Azure Blob Storage o Azure Data Lake Storage Gen2.
- Data lake: il data lake è un archivio centrale per tutti i tuoi dati, indipendentemente dal loro formato o struttura. Il data lake può essere archiviato in Azure Data Lake Blob Storage o Azure Data Lake Storage Gen2.
- Data warehouse: il data warehouse è un archivio dati altamente ottimizzato per l'esecuzione di query analitiche e report. Il data warehouse può essere archiviato in Azure Synapse Analytics o Azure SQL Database. Vedi le differenze tra un data lake e un data warehouse.
I cluster Azure Databricks possono accedere ai dati nella landing zone e nel data lake per eseguire attività di elaborazione e trasformazione. I dati elaborati e trasformati possono quindi essere caricati nel data warehouse a fini analitici.
Questo è solo un esempio di architettura Azure Databricks. L'architettura specifica che sceglierai dipenderà dalle tue esigenze e dai tuoi casi d'uso specifici.
Ecco alcune best practice aggiuntive per la progettazione di un'architettura Azure Databricks:
- Utilizza un sistema di controllo delle versioni:utilizza un sistema di controllo delle versioni, come Git, per tenere traccia delle modifiche apportate ai tuoi notebook Azure Databricks e ad altro codice. Ciò renderà più facile collaborare con altri e ripristinare le modifiche, se necessario.
- Utilizza i test unitari:utilizza i test unitari per testare il codice Azure Databricks. Questo ti aiuterà a identificare e correggere i bug in una fase precoce.
- Utilizza i test di integrazione:utilizza i test di integrazione per testare il codice Azure Databricks con altri componenti dell'architettura, come le origini dati e il data warehouse. In questo modo potrai assicurarti che l'intera architettura funzioni come previsto.
- Monitorare l'architettura:monitorare l'architettura Azure Databricks per identificare e risolvere eventuali problemi di prestazioni o sicurezza. È possibile utilizzare Azure Databricks Monitoring per monitorare i cluster e i processi.
Seguendo queste best practice, è possibile progettare un'architettura Azure Databricks scalabile, efficiente, sicura e affidabile.
Integrazioni chiave di Databricks con Azure
Databricks offre diverse integrazioni con Azure per fornire un ambiente di analisi dei dati e machine learning potente e senza soluzione di continuità. Queste integrazioni sfruttano le funzionalità dei servizi Azure per migliorare i flussi di lavoro di ingegneria dei dati, scienza dei dati e machine learning.
Ecco le principali integrazioni di Databricks con Azure:
Servizio Azure Databricks: Azure Databricks è una piattaforma gestita di Apache Spark e analisi dei dati strettamente integrata con Azure. Offre un ambiente collaborativo in cui ingegneri e scienziati dei dati possono lavorare insieme su progetti relativi ai big data e all'apprendimento automatico.
Archiviazione blob di Azure: Databricks può integrarsi perfettamente con Azure Blob Storage, facilitando l'accesso e l'elaborazione dei dati archiviati nei contenitori Azure Data Lake Storage o Azure Blob Storage. Questa integrazione consente di leggere e scrivere dati in modo efficiente, migliorando i flussi di lavoro di ingegneria dei dati.
Azure Machine Learning: Databricks può integrarsi con i servizi Azure Machine Learning, consentendo ai data scientist di addestrare e distribuire modelli di machine learning utilizzando i cluster Databricks e quindi di distribuirli facilmente su Azure per l'uso in produzione.
Azure Monitor e Azure Log Analytics: Databricks può integrarsi con Azure Monitor e Azure Log Analytics per fornire funzionalità di monitoraggio, registrazione e diagnostica per i carichi di lavoro Databricks. Questa integrazione aiuta nella messa a punto delle prestazioni e nella risoluzione dei problemi.
Azure Active Directory: il Single Sign-On con Azure Active Directory è il modo migliore per accedere ad Azure Databricks. Azure Databricks supporta anche il provisioning automatico degli utenti con Azure AD per creare nuovi utenti, assegnare loro il livello di accesso appropriato e rimuovere gli utenti per revocare l'accesso.
Archiviazione Azure Data Lake: il connettore nativo Azure Databricks per ADLS supporta diversi metodi di accesso al data lake. Semplifica la sicurezza dell'accesso ai dati utilizzando la stessa identità Azure AD che usi per accedere ad Azure Databricks con Azure Active Directory Credential Passthrough. L'accesso ai dati è controllato tramite i ruoli ADLS e gli elenchi di controllo di accesso già configurati.
Azure Data Factory: esegui senza interruzioni i processi Azure Databricks utilizzando Azure Data Factory e sfrutta oltre 90 connettori di origine dati integrati per importare tutte le tue origini dati in un unico data lake. ADF offre controllo del flusso di lavoro integrato, trasformazione dei dati, pianificazione delle pipeline, integrazione dei dati e molte altre funzionalità che ti aiutano a creare pipeline di dati affidabili.
Azure Synapse Analytics: Azure Databricks si integra con i servizi Azure per riunire analisi, business intelligence (BI) e scienza dei dati nelle applicazioni web e mobili sviluppate da Microsoft. Il connettore ad alte prestazioni tra Azure Databricks e Azure Synapse consente un trasferimento rapido dei dati tra i servizi, compreso il supporto per lo streaming dei dati.
Power BI – Una delle caratteristiche chiave che i clienti ricercano quando adottano una strategia Lakehouse è la possibilità di utilizzare in modo efficiente e sicuro i dati direttamente dal data lake con strumenti di BI. Ciò riduce in genere i costi aggiuntivi di latenza, elaborazione e archiviazione associati al flusso tradizionale di copia dei dati già archiviati in un data lake in un data warehouse per l'utilizzo con la BI. Il connettore Azure Databricks in Power BI offre un'esperienza di visualizzazione dei dati più sicura e interattiva per i dati archiviati nel data lake.
Azure DevOps – Azure Databricks si collega ad Azure DevOps per consentire l'integrazione continua e la distribuzione continua (CI/CD). Configura Azure DevOps come provider Git e sfrutta le funzionalità integrate di controllo della versione.
Rete virtuale Azure: l'implementazione predefinita di Azure Databricks è un servizio completamente gestito su Azure che include una rete virtuale (VNet). Azure Databricks supporta anche l'implementazione nella propria rete virtuale (talvolta denominata VNet injection) che consente il controllo completo delle regole di sicurezza della rete.
Hub eventi Azure: ottieni informazioni dettagliate dai dati in streaming live collegando Azure Event Hubs ad Azure Databricks, quindi elabora i messaggi non appena arrivano. Con Event Hubs e Azure Databricks, trasmetti milioni di eventi al secondo da qualsiasi dispositivo IoT o registri dai clickstream dei siti Web ed elaborali quasi in tempo reale.
Azure Key Vault: gestisci le tue informazioni riservate, come chiavi e password, con l'integrazione ad Azure Key Vault. Per impostazione predefinita, tutti i notebook e i risultati di Azure Databricks vengono crittografati inattivi con una chiave di crittografia diversa. Se desideri possedere e gestire autonomamente la chiave utilizzata per crittografare i tuoi notebook e risultati, puoi utilizzare la tua chiave (BYOK).
Azure confidential computing: i clienti possono eseguire i propri carichi di lavoro Azure Databricks su macchine virtuali (VM) Azure riservate. Grazie al supporto per Azure confidential computing, i clienti possono creare una piattaforma dati end-to-end su Databricks Lakehouse con maggiore riservatezza e privacy, crittografando i dati in uso. Ciò si basa sul supporto per le chiavi gestite dal cliente (CMK) per la crittografia dei dati inattivi.
Prezzi di Azure Databricks
I prezzi di Azure Databricks si basano su due componenti principali:
- Unità Databricks (DBU):le DBU sono un'unità di capacità di elaborazione. Il numero di DBU necessarie dipenderà dalle dimensioni e dalla complessità dei carichi di lavoro.
- Costi di archiviazione:Azure Databricks archivia i dati in Azure Blob Storage o Azure Data Lake Storage Gen2. Ti verranno addebitati i costi di archiviazione associati ai tuoi dati.
Azure Databricks offre una varietà di opzioni di prezzo, tra cui:
- Pay-as-you-go:questa è l'opzione di prezzo più flessibile. Il costo viene addebitato in base al numero di DBU utilizzati e alla quantità di spazio di archiviazione consumato.
- Utilizzo vincolato:questa opzione di prezzo consente di risparmiare denaro se si dispone di carichi di lavoro prevedibili. Ci si impegna ad acquistare un determinato numero di DBU per un periodo di uno o tre anni.
- Istanze spot:le istanze spot possono essere un'opzione conveniente per i carichi di lavoro che non sono sensibili al fattore tempo. Le istanze spot sono disponibili a un prezzo scontato, ma possono essere terminate se Azure necessita della capacità per altri carichi di lavoro.
È possibile utilizzare il calcolatore dei prezzi di Azure Databricks per stimare il costo dei carichi di lavoro di Azure Databricks.
Ecco alcuni consigli per risparmiare su Azure Databricks:
- Utilizza il ridimensionamento automatico:il ridimensionamento automatico consente ad Azure Databricks di ridimensionare automaticamente i cluster in base alla domanda. Ciò può aiutarti a risparmiare sui costi di elaborazione.
- Utilizza i servizi gestiti:Azure Databricks offre una vasta gamma di servizi gestiti, come i notebook gestiti e lo streaming gestito. Questi servizi possono aiutarti a ridurre i costi operativi legati alla gestione dell'ambiente Azure Databricks.
- Utilizza le istanze spot:le istanze spot possono essere un'opzione conveniente per i carichi di lavoro che non sono sensibili al fattore tempo. Le istanze spot sono disponibili a un prezzo scontato, ma possono essere terminate se Azure necessita della capacità per altri carichi di lavoro.
Nel complesso, Azure Databricks offre una varietà di opzioni di prezzo e funzionalità che consentono di risparmiare denaro.
Supporto per Azure Databricks
Innanzitutto, le aziende devono comprendere che Azure Databricks include solo il supporto Azure di base per impostazione predefinita. È possibile migliorare significativamente il supporto con il supporto unificato per Azure o il supporto di terze parti per Azure presso US Cloud.
Il supporto Azure Databricks è disponibile 24 ore su 24, 7 giorni su 7, 365 giorni all'anno attraverso una varietà di canali, tra cui:
- Portale di supporto:è possibile creare e monitorare i ticket di supporto tramite il portale di supporto Azure Databricks.
- Assistenza tramite chat:è possibile chattare in tempo reale con un tecnico dell'assistenza Microsoft.
- Assistenza telefonica:è possibile chiamare l'assistenza Microsoft e parlare con un tecnico dell'assistenza.
- Supporto della community:è possibile porre domande e ottenere assistenza da altri utenti di Azure Databricks sul forum della community di Azure Databricks.
Il livello di assistenza ricevuto dipende dal piano di assistenza Azure Databricks. Azure Databricks offre una varietà di piani di assistenza, tra cui:
- Assistenza di base:l'assistenza di base è inclusa in tutti gli abbonamenti Azure Databricks. Consente di accedere al portale di assistenza e all'assistenza della community.
- Assistenza standard:l'assistenza standard offre un livello di supporto più elevato, compreso l'accesso all'assistenza tramite chat e telefono.
- Assistenza Premium:l'assistenza Premium offre il massimo livello di supporto, compreso l'accesso a un team di assistenza dedicato.
Puoi scegliere il piano di assistenza più adatto alle tue esigenze e al tuo budget.
Per ottenere assistenza per Azure Databricks, è possibile creare un ticket di assistenza tramite il portale di assistenza Azure Databricks o chattare in tempo reale con un tecnico dell'assistenza Microsoft.
Ecco alcuni suggerimenti per ottenere il massimo dal supporto Azure Databricks con Microsoft o US Cloud:
- Sii specifico:quando crei un ticket di assistenza, descrivi nel modo più dettagliato possibile il problema che stai riscontrando. Ciò consentirà al team di assistenza di risolvere il tuo problema più rapidamente.
- Fornisci informazioni dettagliate:più informazioni riesci a fornire al team di assistenza, meglio è. Queste possono includere informazioni quali i messaggi di errore che ricevi, il codice che stai eseguendo e i dati che stai utilizzando.
- Sii reattivo:il team di assistenza potrebbe doverti porre ulteriori domande per risolvere il tuo problema. Assicurati di rispondere prontamente alle loro domande in modo che possano risolvere il tuo problema il più rapidamente possibile.
Nel complesso, Azure Databricks offre una vasta gamma di opzioni di supporto per aiutarti a ottenere l'assistenza di cui hai bisogno quando ne hai bisogno.
La "tassa del silicio" che non hai considerato: il costo nascosto di Microsoft nell'infrastruttura tecnologica
La fine del modello di tariffazione "per postazione" di Microsoft
L'imposta sul supporto unificato di Microsoft nel settore delle telecomunicazioni