Azure Databricks.
AZURE DATABRICKS
Azure Databricks combine les entrepôts de données et les lacs de données dans une architecture de type « lakehouse ». Unifiez toutes vos données, analyses et IA sur une seule plateforme.
Qu'est-ce qu'Azure Databricks ?
Azure Databricks est une plateforme d'analyse unifiée qui permet aux organisations de créer des pipelines de données, des modèles d'apprentissage automatique et des tableaux de bord à grande échelle. Il s'agit d'un service entièrement géré qui fonctionne sur Azure et qui fournit un espace de travail unifié permettant aux scientifiques des données, aux ingénieurs des données et aux analystes commerciaux de collaborer sur des projets.
Azure Databricks s'appuie sur Apache Spark, un framework informatique distribué open source très populaire. Il fournit un environnement Spark optimisé, ainsi qu'une suite d'outils et de fonctionnalités qui facilitent la création et le déploiement d'applications d'analyse et d'IA.
Azure Databricks est un choix populaire pour divers cas d'utilisation, notamment :
- Ingénierie des données : Azure Databricks peut être utilisé pour créer et gérer des pipelines de données qui traitent et transforment de grands ensembles de données.
- Apprentissage automatique : Azure Databricks fournit divers outils et bibliothèques pour créer et déployer des modèles d'apprentissage automatique.
- Business intelligence : Azure Databricks peut être utilisé pour créer des tableaux de bord et des rapports qui fournissent des informations sur les données.
Azure Databricks est également étroitement intégré à d'autres services Azure, tels que Azure Storage, Azure SQL Database et Azure Machine Learning Studio. Cela facilite la création et le déploiement de solutions d'analyse et d'IA de bout en bout sur Azure.
Voici quelques-uns des avantages liés à l'utilisation d'Azure Databricks :
- Plateforme unifiée : Azure Databricks fournit une plateforme unique pour l'ingénierie des données, la science des données et l'intelligence économique. Cela facilite la collaboration entre les équipes sur les projets et le partage des données.
- Évolutivité : Azure Databricks peut évoluer pour répondre aux besoins des charges de travail les plus exigeantes. Il peut traiter des pétaoctets de données et des milliers d'utilisateurs simultanés.
- Performances : Azure Databricks est optimisé pour offrir des performances élevées et fournir rapidement et efficacement des informations à partir des données.
- Facilité d'utilisation : Azure Databricks est facile à utiliser et fournit une variété d'outils et de fonctionnalités pour aider les utilisateurs à se lancer rapidement.
Dans l'ensemble, Azure Databricks est une plateforme d'analyse puissante et polyvalente qui peut être utilisée pour résoudre un large éventail de problèmes. C'est un bon choix pour les organisations de toutes tailles qui cherchent à créer et à déployer des solutions d'analyse et d'IA de bout en bout.
La meilleure architecture Azure Databricks
La meilleure architecture Azure Databricks dépend des besoins spécifiques de votre organisation et des cas d'utilisation que vous prévoyez de prendre en charge. Cependant, il existe certaines pratiques recommandées générales que vous pouvez suivre pour concevoir une architecture évolutive, efficace et sécurisée.
Voici quelques conseils pour concevoir la meilleure architecture Azure Databricks :
- Utilisez une architecture en couches :une architecture en couches sépare vos données et vos charges de travail en différentes couches, telles qu'une zone d'atterrissage, un lac de données et un entrepôt de données. Cela facilite la gestion de vos données et de vos charges de travail, tout en améliorant les performances et la sécurité.
- Utilisez Delta Lake :Delta Lake est un format de stockage open source qui fournit des transactions ACID et d'autres fonctionnalités qui le rendent idéal pour stocker des données dans Azure Databricks. Il est également compatible avec Spark, vous pouvez donc utiliser le code Spark existant pour traiter et transformer vos données.
- Utilisez la mise à l'échelle automatique :la mise à l'échelle automatique permet à Azure Databricks d'augmenter ou de réduire automatiquement la taille de vos clusters en fonction de la demande. Cela peut vous aider à réduire vos coûts informatiques.
- Utilisez les services gérés :Azure Databricks fournit divers services gérés, tels que les blocs-notes gérés et le streaming géré. Ces services peuvent vous aider à réduire les frais généraux liés à la gestion de votre environnement Azure Databricks.
- Utilisez les fonctionnalités de sécurité :Azure Databricks offre diverses fonctionnalités de sécurité, telles que le contrôle d'accès basé sur les rôles (RBAC) et le chiffrement. Ces fonctionnalités peuvent vous aider à protéger vos données et vos charges de travail contre tout accès non autorisé.
Voici un exemple d'architecture Azure Databricks en couches :
- Zone d'atterrissage :la zone d'atterrissage est une zone de stockage temporaire où les données sont d'abord ingérées dans Azure Databricks. La zone d'atterrissage peut être stockée dans Azure Blob Storage ou Azure Data Lake Storage Gen2.
- Lac de données : le lac de données est un référentiel centralisé pour toutes vos données, quels que soient leur format ou leur structure. Le lac de données peut être stocké dans Azure Data Lake Blob Storage ou Azure Data Lake Storage Gen2.
- Entrepôt de données : l'entrepôt de données est un magasin de données hautement optimisé pour l'exécution de requêtes analytiques et de rapports. L' entrepôt de données Azure peut être stocké dans Azure Synapse Analytics ou Azure SQL Database. Découvrez les différences entre un lac de données et un entrepôt de données.
Les clusters Azure Databricks peuvent accéder aux données dans la zone d'atterrissage et le lac de données pour effectuer des tâches de traitement et de transformation. Les données traitées et transformées peuvent ensuite être chargées dans l'entrepôt de données à des fins d'analyse.
Ceci n'est qu'un exemple d'architecture Azure Databricks. L'architecture spécifique que vous choisirez dépendra de vos besoins et cas d'utilisation particuliers.
Voici quelques bonnes pratiques supplémentaires pour concevoir une architecture Azure Databricks :
- Utilisez un système de contrôle de version :utilisez un système de contrôle de version, tel que Git, pour suivre les modifications apportées à vos blocs-notes Azure Databricks et à d'autres codes. Cela facilitera la collaboration avec d'autres personnes et permettra de revenir en arrière si nécessaire.
- Utilisez des tests unitaires :utilisez des tests unitaires pour tester votre code Azure Databricks. Cela vous aidera à identifier et à corriger les bogues dès le début.
- Utilisez des tests d'intégration :utilisez des tests d'intégration pour tester votre code Azure Databricks avec d'autres composants de votre architecture, tels que vos sources de données et votre entrepôt de données. Cela vous aidera à vous assurer que l'ensemble de votre architecture fonctionne comme prévu.
- Surveillez votre architecture :surveillez votre architecture Azure Databricks afin d'identifier et de résoudre tout problème de performances ou de sécurité. Vous pouvez utiliser Azure Databricks Monitoring pour surveiller vos clusters et vos tâches.
En suivant ces bonnes pratiques, vous pouvez concevoir une architecture Azure Databricks évolutive, efficace, sécurisée et fiable.
Principales intégrations Azure de Databricks
Databricks propose plusieurs intégrations avec Azure afin d'offrir un environnement d'analyse de données et d'apprentissage automatique puissant et fluide. Ces intégrations exploitent les capacités des services Azure pour améliorer les workflows d'ingénierie des données, de science des données et d'apprentissage automatique.
Voici les principales intégrations de Databricks avec Azure :
Service Azure Databricks – Azure Databricks est une plateforme Apache Spark et d'analyse de données gérée, étroitement intégrée à Azure. Elle offre un environnement collaboratif permettant aux ingénieurs et aux scientifiques des données de travailler ensemble sur des projets liés au Big Data et au machine learning.
Stockage Blob Azure – Databricks s'intègre de manière transparente à Azure Blob Storage, ce qui facilite l'accès et le traitement des données stockées dans Azure Data Lake Storage ou dans les conteneurs Azure Blob Storage. Cette intégration vous permet de lire et d'écrire des données efficacement, améliorant ainsi les workflows d'ingénierie des données.
Apprentissage automatique Azure – Databricks peut s'intégrer aux services Azure Machine Learning, ce qui permet aux scientifiques des données de former et de déployer des modèles d'apprentissage automatique à l'aide des clusters Databricks, puis de les déployer facilement sur Azure pour une utilisation en production.
Azure Monitor et Azure Log Analytics – Databricks peut s'intégrer à Azure Monitor et Azure Log Analytics pour fournir des fonctionnalités de surveillance, de journalisation et de diagnostic pour vos charges de travail Databricks. Cette intégration facilite l'optimisation des performances et le dépannage.
Azure Active Directory – L'authentification unique avec Azure Active Directory est le meilleur moyen de se connecter à Azure Databricks. Azure Databricks prend également en charge le provisionnement automatisé des utilisateurs avec Azure AD pour créer de nouveaux utilisateurs, leur attribuer le niveau d'accès approprié et supprimer des utilisateurs pour leur retirer leur accès.
Stockage Azure Data Lake – Le connecteur natif Azure Databricks vers ADLS prend en charge plusieurs méthodes d'accès à votre lac de données. Simplifiez la sécurité de l'accès aux données en utilisant la même identité Azure AD que celle que vous utilisez pour vous connecter à Azure Databricks avec Azure Active Directory Credential Passthrough. Votre accès aux données est contrôlé via les rôles ADLS et les listes de contrôle d'accès que vous avez déjà configurés.
Azure Data Factory: exécutez en toute transparence des tâches Azure Databricks à l'aide d'Azure Data Factory et tirez parti de plus de 90 connecteurs de sources de données intégrés pour ingérer toutes vos sources de données dans un seul lac de données. ADF fournit des fonctionnalités intégrées de contrôle des workflows, de transformation des données, de planification des pipelines, d'intégration des données et bien d'autres encore pour vous aider à créer des pipelines de données fiables.
Azure Synapse Analytics – Azure Databricks s'intègre aux services Azure pour réunir l'analyse, la veille économique (BI) et la science des données dans les applications Web et mobiles développées par Microsoft. Le connecteur haute performance entre Azure Databricks et Azure Synapse permet un transfert rapide des données entre les services, y compris la prise en charge des données en continu.
Power BI – L'une des fonctionnalités clés recherchées par les clients lorsqu'ils adoptent une stratégie Lakehouse est la possibilité d'utiliser efficacement et en toute sécurité les données directement à partir du lac de données à l'aide d'outils BI. Cela réduit généralement les coûts supplémentaires liés à la latence, au calcul et au stockage associés au flux traditionnel de copie des données déjà stockées dans un lac de données vers un entrepôt de données à des fins d'utilisation BI. Le connecteur Azure Databricks dans Power BI offre une expérience de visualisation des données plus sécurisée et plus interactive pour les données stockées dans votre lac de données.
Azure DevOps – Azure Databricks se connecte à Azure DevOps pour faciliter l'intégration continue et le déploiement continu (CI/CD). Configurez Azure DevOps comme votre fournisseur Git et profitez des fonctionnalités intégrées de contrôle de version.
Réseau virtuel Azure – Le déploiement par défaut d'Azure Databricks est un service entièrement géré sur Azure qui inclut un réseau virtuel (VNet). Azure Databricks prend également en charge le déploiement dans votre propre réseau virtuel (parfois appelé injection VNet), ce qui permet un contrôle total des règles de sécurité réseau.
Hubs d'événements Azure: obtenez des informations à partir de données en streaming en direct en connectant Azure Event Hubs à Azure Databricks, puis traitez les messages dès leur arrivée. Avec Event Hubs et Azure Databricks, diffusez des millions d'événements par seconde à partir de n'importe quel appareil IoT ou de journaux provenant de flux de clics sur des sites Web, et traitez-les en temps quasi réel.
Azure Key Vault: gérez vos secrets, tels que vos clés et mots de passe, grâce à l'intégration à Azure Key Vault. Par défaut, tous les notebooks et résultats Azure Databricks sont chiffrés au repos à l'aide d'une clé de chiffrement différente. Si vous souhaitez posséder et gérer vous-même la clé utilisée pour chiffrer vos notebooks et résultats, vous pouvez apporter votre propre clé (BYOK).
Informatique confidentielle Azure: les clients peuvent exécuter leurs charges de travail Azure Databricks sur des machines virtuelles (VM) confidentielles Azure. Grâce à la prise en charge de l'informatique confidentielle Azure, les clients peuvent créer une plateforme de données de bout en bout sur Databricks Lakehouse avec une confidentialité et une protection accrues en chiffrant les données utilisées. Cela s'appuie sur la prise en charge des clés gérées par le client (CMK) pour le chiffrement des données au repos.
Tarifs Azure Databricks
La tarification Azure Databricks repose sur deux éléments principaux :
- Unités Databricks (DBU) :les DBU sont une unité de capacité de traitement. Le nombre de DBU dont vous avez besoin dépendra de la taille et de la complexité de vos charges de travail.
- Coûts de stockage :Azure Databricks stocke les données dans Azure Blob Storage ou Azure Data Lake Storage Gen2. Les coûts de stockage associés à vos données vous seront facturés.
Azure Databricks propose diverses options tarifaires, notamment :
- Paiement à l'utilisation :il s'agit de l'option tarifaire la plus flexible. Vous êtes facturé en fonction du nombre de DBU que vous utilisez et de la quantité de stockage que vous consommez.
- Utilisation engagée :cette option tarifaire peut vous permettre de réaliser des économies si vous avez des charges de travail prévisibles. Vous vous engagez à utiliser un certain nombre de DBU pendant une période d'un ou trois ans.
- Instances Spot :les instances Spot peuvent constituer une option économique pour les charges de travail qui ne sont pas sensibles au facteur temps. Les instances Spot sont disponibles à un prix réduit, mais elles peuvent être résiliées si Azure a besoin de la capacité pour d'autres charges de travail.
Vous pouvez utiliser le calculateur de prix Azure Databricks pour estimer le coût de vos charges de travail Azure Databricks.
Voici quelques conseils pour économiser de l'argent sur Azure Databricks :
- Utilisez la mise à l'échelle automatique :la mise à l'échelle automatique permet à Azure Databricks d'augmenter ou de réduire automatiquement la taille de vos clusters en fonction de la demande. Cela peut vous aider à réduire vos coûts informatiques.
- Utilisez les services gérés :Azure Databricks fournit divers services gérés, tels que les blocs-notes gérés et le streaming géré. Ces services peuvent vous aider à réduire les frais généraux liés à la gestion de votre environnement Azure Databricks.
- Utilisez des instances ponctuelles :les instances ponctuelles peuvent constituer une option économique pour les charges de travail qui ne sont pas sensibles au facteur temps. Les instances ponctuelles sont disponibles à un prix réduit, mais elles peuvent être résiliées si Azure a besoin de la capacité pour d'autres charges de travail.
Dans l'ensemble, Azure Databricks propose diverses options tarifaires et fonctionnalités qui vous permettent de réaliser des économies.
Caractéristiques
Caractéristiques du niveau Standard |
|||
|---|---|---|---|
| Fonctionnalité | Calcul polyvalent | Emplois Informatique | Emplois Calcul léger |
| Charges de travail interactives pour analyser les données de manière collaborative à l'aide de carnets de notes | Charges de travail automatisées pour exécuter des tâches rapides et robustes via une API ou une interface utilisateur | Charges de travail automatisées pour exécuter des tâches robustes via une API ou une interface utilisateur | |
| Apache Spark sur la plateforme Databricks | Disponible |
Disponible |
Disponible |
| Planification des tâches avec les bibliothèques | Disponible |
Disponible |
Disponible |
| Planification des tâches avec les carnets | Disponible |
Disponible |
Non disponible |
| Clusters de pilotage automatique | Disponible |
Disponible |
Non disponible |
| Databricks Runtime pour ML | Disponible |
Disponible |
Non disponible |
| MLflow sur Databricks Preview | Disponible |
Disponible |
Non disponible |
| Databricks Delta | Disponible |
Disponible |
Non disponible |
| Clusters interactifs | Disponible |
Non disponible |
Non disponible |
| Carnets et collaboration | Disponible |
Non disponible |
Non disponible |
| Intégrations écosystémiques | Disponible |
Non disponible |
Non disponible |
Fonctionnalités Premium |
|||
| Fonctionnalité | Calcul polyvalent | Emplois Informatique | Emplois Calcul léger |
| Charges de travail interactives pour analyser les données de manière collaborative à l'aide de carnets de notes | Charges de travail automatisées pour exécuter des tâches rapides et robustes via une API ou une interface utilisateur | Charges de travail automatisées pour exécuter des tâches robustes via une API ou une interface utilisateur | |
| Comprend les fonctionnalités standard | Comprend les fonctionnalités standard | Comprend les fonctionnalités standard | |
| Contrôle d'accès basé sur les rôles pour les ordinateurs portables, les clusters, les tâches et les tableaux | Disponible |
Disponible |
Disponible |
| Authentification des points de terminaison JDBC/ODBC | Disponible |
Disponible |
Disponible |
| Journaux d'audit | Disponible |
Disponible |
Disponible |
| Toutes les fonctionnalités du forfait Standard | Disponible |
Disponible |
Disponible |
| Transfert des informations d'identification Azure AD | Disponible |
Disponible |
Non disponible |
| Authentification conditionnelle | Disponible |
Non disponible |
Non disponible |
| Politiques de cluster (aperçu) | Disponible |
Disponible |
Disponible |
| Liste d'accès IP (aperçu) | Disponible |
Disponible |
Disponible |
| API de gestion des jetons (aperçu) | Disponible |
Disponible |
Disponible |
Fonctionnalités de Delta Live Tables (DLT) |
|||
| Fonctionnalité | Noyau DLT | DLT Pro | DLT avancé |
| Capacités de base | Disponible |
Disponible |
Disponible |
| Capture des données modifiées | Non disponible |
Disponible |
Disponible |
| Qualité des données | Non disponible |
Non disponible |
Disponible |
Prise en charge d'Azure Databricks
Tout d'abord, les entreprises doivent comprendre qu'Azure Databricks inclut uniquement une assistance Azure de base par défaut. Vous pouvez améliorer considérablement votre assistance grâce à l'assistance unifiée pour Azure ou à l'assistance tierce pour Azure chez US Cloud.
L'assistance Azure Databricks est disponible 24 h/24, 7 j/7 et 365 j/an via divers canaux, notamment :
- Portail d'assistance :vous pouvez créer et suivre des tickets d'assistance via le portail d'assistance Azure Databricks.
- Assistance par chat :vous pouvez discuter en temps réel avec un ingénieur du support technique Microsoft.
- Assistance téléphonique :vous pouvez appeler le service d'assistance Microsoft et parler à un ingénieur d'assistance.
- Assistance communautaire :vous pouvez poser des questions et obtenir de l'aide auprès d'autres utilisateurs Azure Databricks sur le forum communautaire Azure Databricks.
Le niveau d'assistance dont vous bénéficiez dépend de votre plan d'assistance Azure Databricks. Azure Databricks propose divers plans d'assistance, notamment :
- Assistance de base :l'assistance de base est incluse dans tous les abonnements Azure Databricks. Elle donne accès au portail d'assistance et à l'assistance communautaire.
- Assistance standard :l'assistance standard offre un niveau d'assistance supérieur, comprenant l'accès à l'assistance par chat et par téléphone.
- Assistance Premium :l'assistance Premium offre le plus haut niveau d'assistance, y compris l'accès à une équipe d'assistance dédiée.
Vous pouvez choisir le plan d'assistance qui correspond le mieux à vos besoins et à votre budget.
Pour obtenir de l'aide sur Azure Databricks, vous pouvez créer un ticket d'assistance via le portail d'assistance Azure Databricks ou discuter en temps réel avec un ingénieur d'assistance Microsoft.
Voici quelques conseils pour tirer le meilleur parti de l'assistance Azure Databricks avec Microsoft ou US Cloud :
- Soyez précis :lorsque vous créez un ticket d'assistance, soyez aussi précis que possible au sujet du problème que vous rencontrez. Cela aidera l'équipe d'assistance à résoudre votre problème plus rapidement.
- Fournissez des informations détaillées :plus vous fournirez d'informations à l'équipe d'assistance, mieux ce sera. Il peut s'agir d'informations telles que les messages d'erreur que vous recevez, le code que vous exécutez et les données que vous utilisez.
- Soyez réactif :l'équipe d'assistance peut avoir besoin de vous poser des questions supplémentaires afin de résoudre votre problème. Veillez à répondre rapidement à leurs questions afin qu'ils puissent résoudre votre problème dans les meilleurs délais.
Dans l'ensemble, Azure Databricks propose diverses options d'assistance pour vous aider à obtenir l'aide dont vous avez besoin quand vous en avez besoin.
AZURE DATABRICKS
Azure Databricks combine les entrepôts de données et les lacs de données dans une architecture de type « lakehouse ». Unifiez toutes vos données, analyses et IA sur une seule plateforme.
Qu'est-ce qu'Azure Databricks ?
Azure Databricks est une plateforme d'analyse unifiée qui permet aux organisations de créer des pipelines de données, des modèles d'apprentissage automatique et des tableaux de bord à grande échelle. Il s'agit d'un service entièrement géré qui fonctionne sur Azure et qui fournit un espace de travail unifié permettant aux scientifiques des données, aux ingénieurs des données et aux analystes commerciaux de collaborer sur des projets.
Azure Databricks s'appuie sur Apache Spark, un framework informatique distribué open source très populaire. Il fournit un environnement Spark optimisé, ainsi qu'une suite d'outils et de fonctionnalités qui facilitent la création et le déploiement d'applications d'analyse et d'IA.
Azure Databricks est un choix populaire pour divers cas d'utilisation, notamment :
- Ingénierie des données : Azure Databricks peut être utilisé pour créer et gérer des pipelines de données qui traitent et transforment de grands ensembles de données.
- Apprentissage automatique : Azure Databricks fournit divers outils et bibliothèques pour créer et déployer des modèles d'apprentissage automatique.
- Business intelligence : Azure Databricks peut être utilisé pour créer des tableaux de bord et des rapports qui fournissent des informations sur les données.
Azure Databricks est également étroitement intégré à d'autres services Azure, tels que Azure Storage, Azure SQL Database et Azure Machine Learning Studio. Cela facilite la création et le déploiement de solutions d'analyse et d'IA de bout en bout sur Azure.
Voici quelques-uns des avantages liés à l'utilisation d'Azure Databricks :
- Plateforme unifiée : Azure Databricks fournit une plateforme unique pour l'ingénierie des données, la science des données et l'intelligence économique. Cela facilite la collaboration entre les équipes sur les projets et le partage des données.
- Évolutivité : Azure Databricks peut évoluer pour répondre aux besoins des charges de travail les plus exigeantes. Il peut traiter des pétaoctets de données et des milliers d'utilisateurs simultanés.
- Performances : Azure Databricks est optimisé pour offrir des performances élevées et fournir rapidement et efficacement des informations à partir des données.
- Facilité d'utilisation : Azure Databricks est facile à utiliser et fournit une variété d'outils et de fonctionnalités pour aider les utilisateurs à se lancer rapidement.
Dans l'ensemble, Azure Databricks est une plateforme d'analyse puissante et polyvalente qui peut être utilisée pour résoudre un large éventail de problèmes. C'est un bon choix pour les organisations de toutes tailles qui cherchent à créer et à déployer des solutions d'analyse et d'IA de bout en bout.
La meilleure architecture Azure Databricks
La meilleure architecture Azure Databricks dépend des besoins spécifiques de votre organisation et des cas d'utilisation que vous prévoyez de prendre en charge. Cependant, il existe certaines pratiques recommandées générales que vous pouvez suivre pour concevoir une architecture évolutive, efficace et sécurisée.
Voici quelques conseils pour concevoir la meilleure architecture Azure Databricks :
- Utilisez une architecture en couches :une architecture en couches sépare vos données et vos charges de travail en différentes couches, telles qu'une zone d'atterrissage, un lac de données et un entrepôt de données. Cela facilite la gestion de vos données et de vos charges de travail, tout en améliorant les performances et la sécurité.
- Utilisez Delta Lake :Delta Lake est un format de stockage open source qui fournit des transactions ACID et d'autres fonctionnalités qui le rendent idéal pour stocker des données dans Azure Databricks. Il est également compatible avec Spark, vous pouvez donc utiliser le code Spark existant pour traiter et transformer vos données.
- Utilisez la mise à l'échelle automatique :la mise à l'échelle automatique permet à Azure Databricks d'augmenter ou de réduire automatiquement la taille de vos clusters en fonction de la demande. Cela peut vous aider à réduire vos coûts informatiques.
- Utilisez les services gérés :Azure Databricks fournit divers services gérés, tels que les blocs-notes gérés et le streaming géré. Ces services peuvent vous aider à réduire les frais généraux liés à la gestion de votre environnement Azure Databricks.
- Utilisez les fonctionnalités de sécurité :Azure Databricks offre diverses fonctionnalités de sécurité, telles que le contrôle d'accès basé sur les rôles (RBAC) et le chiffrement. Ces fonctionnalités peuvent vous aider à protéger vos données et vos charges de travail contre tout accès non autorisé.
Voici un exemple d'architecture Azure Databricks en couches :
- Zone d'atterrissage :la zone d'atterrissage est une zone de stockage temporaire où les données sont d'abord ingérées dans Azure Databricks. La zone d'atterrissage peut être stockée dans Azure Blob Storage ou Azure Data Lake Storage Gen2.
- Lac de données : le lac de données est un référentiel centralisé pour toutes vos données, quels que soient leur format ou leur structure. Le lac de données peut être stocké dans Azure Data Lake Blob Storage ou Azure Data Lake Storage Gen2.
- Entrepôt de données : l'entrepôt de données est un magasin de données hautement optimisé pour l'exécution de requêtes analytiques et de rapports. L'entrepôt de données peut être stocké dans Azure Synapse Analytics ou Azure SQL Database. Découvrez les différences entre un lac de données et un entrepôt de données.
Les clusters Azure Databricks peuvent accéder aux données dans la zone d'atterrissage et le lac de données pour effectuer des tâches de traitement et de transformation. Les données traitées et transformées peuvent ensuite être chargées dans l'entrepôt de données à des fins d'analyse.
Ceci n'est qu'un exemple d'architecture Azure Databricks. L'architecture spécifique que vous choisirez dépendra de vos besoins et cas d'utilisation particuliers.
Voici quelques bonnes pratiques supplémentaires pour concevoir une architecture Azure Databricks :
- Utilisez un système de contrôle de version :utilisez un système de contrôle de version, tel que Git, pour suivre les modifications apportées à vos blocs-notes Azure Databricks et à d'autres codes. Cela facilitera la collaboration avec d'autres personnes et permettra de revenir en arrière si nécessaire.
- Utilisez des tests unitaires :utilisez des tests unitaires pour tester votre code Azure Databricks. Cela vous aidera à identifier et à corriger les bogues dès le début.
- Utilisez des tests d'intégration :utilisez des tests d'intégration pour tester votre code Azure Databricks avec d'autres composants de votre architecture, tels que vos sources de données et votre entrepôt de données. Cela vous aidera à vous assurer que l'ensemble de votre architecture fonctionne comme prévu.
- Surveillez votre architecture :surveillez votre architecture Azure Databricks afin d'identifier et de résoudre tout problème de performances ou de sécurité. Vous pouvez utiliser Azure Databricks Monitoring pour surveiller vos clusters et vos tâches.
En suivant ces bonnes pratiques, vous pouvez concevoir une architecture Azure Databricks évolutive, efficace, sécurisée et fiable.
Principales intégrations Azure de Databricks
Databricks propose plusieurs intégrations avec Azure afin d'offrir un environnement d'analyse de données et d'apprentissage automatique puissant et fluide. Ces intégrations exploitent les capacités des services Azure pour améliorer les workflows d'ingénierie des données, de science des données et d'apprentissage automatique.
Voici les principales intégrations de Databricks avec Azure :
Service Azure Databricks – Azure Databricks est une plateforme Apache Spark et d'analyse de données gérée, étroitement intégrée à Azure. Elle offre un environnement collaboratif permettant aux ingénieurs et aux scientifiques des données de travailler ensemble sur des projets liés au Big Data et au machine learning.
Stockage Blob Azure – Databricks s'intègre de manière transparente à Azure Blob Storage, ce qui facilite l'accès et le traitement des données stockées dans Azure Data Lake Storage ou dans les conteneurs Azure Blob Storage. Cette intégration vous permet de lire et d'écrire des données efficacement, améliorant ainsi les workflows d'ingénierie des données.
Apprentissage automatique Azure – Databricks peut s'intégrer aux services Azure Machine Learning, ce qui permet aux scientifiques des données de former et de déployer des modèles d'apprentissage automatique à l'aide des clusters Databricks, puis de les déployer facilement sur Azure pour une utilisation en production.
Azure Monitor et Azure Log Analytics – Databricks peut s'intégrer à Azure Monitor et Azure Log Analytics pour fournir des fonctionnalités de surveillance, de journalisation et de diagnostic pour vos charges de travail Databricks. Cette intégration facilite l'optimisation des performances et le dépannage.
Azure Active Directory – L'authentification unique avec Azure Active Directory est le meilleur moyen de se connecter à Azure Databricks. Azure Databricks prend également en charge le provisionnement automatisé des utilisateurs avec Azure AD pour créer de nouveaux utilisateurs, leur attribuer le niveau d'accès approprié et supprimer des utilisateurs pour leur retirer leur accès.
Stockage Azure Data Lake – Le connecteur natif Azure Databricks vers ADLS prend en charge plusieurs méthodes d'accès à votre lac de données. Simplifiez la sécurité de l'accès aux données en utilisant la même identité Azure AD que celle que vous utilisez pour vous connecter à Azure Databricks avec Azure Active Directory Credential Passthrough. Votre accès aux données est contrôlé via les rôles ADLS et les listes de contrôle d'accès que vous avez déjà configurés.
Azure Data Factory: exécutez en toute transparence des tâches Azure Databricks à l'aide d'Azure Data Factory et tirez parti de plus de 90 connecteurs de sources de données intégrés pour ingérer toutes vos sources de données dans un seul lac de données. ADF fournit des fonctionnalités intégrées de contrôle des workflows, de transformation des données, de planification des pipelines, d'intégration des données et bien d'autres encore pour vous aider à créer des pipelines de données fiables.
Azure Synapse Analytics – Azure Databricks s'intègre aux services Azure pour réunir l'analyse, la veille économique (BI) et la science des données dans les applications Web et mobiles développées par Microsoft. Le connecteur haute performance entre Azure Databricks et Azure Synapse permet un transfert rapide des données entre les services, y compris la prise en charge des données en continu.
Power BI – L'une des fonctionnalités clés recherchées par les clients lorsqu'ils adoptent une stratégie Lakehouse est la possibilité d'utiliser efficacement et en toute sécurité les données directement à partir du lac de données à l'aide d'outils BI. Cela réduit généralement les coûts supplémentaires liés à la latence, au calcul et au stockage associés au flux traditionnel de copie des données déjà stockées dans un lac de données vers un entrepôt de données à des fins d'utilisation BI. Le connecteur Azure Databricks dans Power BI offre une expérience de visualisation des données plus sécurisée et plus interactive pour les données stockées dans votre lac de données.
Azure DevOps – Azure Databricks se connecte à Azure DevOps pour faciliter l'intégration continue et le déploiement continu (CI/CD). Configurez Azure DevOps comme votre fournisseur Git et profitez des fonctionnalités intégrées de contrôle de version.
Réseau virtuel Azure – Le déploiement par défaut d'Azure Databricks est un service entièrement géré sur Azure qui inclut un réseau virtuel (VNet). Azure Databricks prend également en charge le déploiement dans votre propre réseau virtuel (parfois appelé injection VNet), ce qui permet un contrôle total des règles de sécurité réseau.
Hubs d'événements Azure: obtenez des informations à partir de données en streaming en direct en connectant Azure Event Hubs à Azure Databricks, puis traitez les messages dès leur arrivée. Avec Event Hubs et Azure Databricks, diffusez des millions d'événements par seconde à partir de n'importe quel appareil IoT ou de journaux provenant de flux de clics sur des sites Web, et traitez-les en temps quasi réel.
Azure Key Vault: gérez vos secrets, tels que vos clés et mots de passe, grâce à l'intégration à Azure Key Vault. Par défaut, tous les notebooks et résultats Azure Databricks sont chiffrés au repos à l'aide d'une clé de chiffrement différente. Si vous souhaitez posséder et gérer vous-même la clé utilisée pour chiffrer vos notebooks et résultats, vous pouvez apporter votre propre clé (BYOK).
Informatique confidentielle Azure: les clients peuvent exécuter leurs charges de travail Azure Databricks sur des machines virtuelles (VM) confidentielles Azure. Grâce à la prise en charge de l'informatique confidentielle Azure, les clients peuvent créer une plateforme de données de bout en bout sur Databricks Lakehouse avec une confidentialité et une protection accrues en chiffrant les données utilisées. Cela s'appuie sur la prise en charge des clés gérées par le client (CMK) pour le chiffrement des données au repos.
Tarifs Azure Databricks
La tarification Azure Databricks repose sur deux éléments principaux :
- Unités Databricks (DBU) :les DBU sont une unité de capacité de traitement. Le nombre de DBU dont vous avez besoin dépendra de la taille et de la complexité de vos charges de travail.
- Coûts de stockage :Azure Databricks stocke les données dans Azure Blob Storage ou Azure Data Lake Storage Gen2. Les coûts de stockage associés à vos données vous seront facturés.
Azure Databricks propose diverses options tarifaires, notamment :
- Paiement à l'utilisation :il s'agit de l'option tarifaire la plus flexible. Vous êtes facturé en fonction du nombre de DBU que vous utilisez et de la quantité de stockage que vous consommez.
- Utilisation engagée :cette option tarifaire peut vous permettre de réaliser des économies si vous avez des charges de travail prévisibles. Vous vous engagez à utiliser un certain nombre de DBU pendant une période d'un ou trois ans.
- Instances Spot :les instances Spot peuvent constituer une option économique pour les charges de travail qui ne sont pas sensibles au facteur temps. Les instances Spot sont disponibles à un prix réduit, mais elles peuvent être résiliées si Azure a besoin de la capacité pour d'autres charges de travail.
Vous pouvez utiliser le calculateur de prix Azure Databricks pour estimer le coût de vos charges de travail Azure Databricks.
Voici quelques conseils pour économiser de l'argent sur Azure Databricks :
- Utilisez la mise à l'échelle automatique :la mise à l'échelle automatique permet à Azure Databricks d'augmenter ou de réduire automatiquement la taille de vos clusters en fonction de la demande. Cela peut vous aider à réduire vos coûts informatiques.
- Utilisez les services gérés :Azure Databricks fournit divers services gérés, tels que les blocs-notes gérés et le streaming géré. Ces services peuvent vous aider à réduire les frais généraux liés à la gestion de votre environnement Azure Databricks.
- Utilisez des instances ponctuelles :les instances ponctuelles peuvent constituer une option économique pour les charges de travail qui ne sont pas sensibles au facteur temps. Les instances ponctuelles sont disponibles à un prix réduit, mais elles peuvent être résiliées si Azure a besoin de la capacité pour d'autres charges de travail.
Dans l'ensemble, Azure Databricks propose diverses options tarifaires et fonctionnalités qui vous permettent de réaliser des économies.
Prise en charge d'Azure Databricks
Tout d'abord, les entreprises doivent comprendre qu'Azure Databricks inclut uniquement une assistance Azure de base par défaut. Vous pouvez améliorer considérablement votre assistance grâce à l'assistance unifiée pour Azure ou à l'assistance tierce pour Azure chez US Cloud.
L'assistance Azure Databricks est disponible 24 h/24, 7 j/7 et 365 j/an via divers canaux, notamment :
- Portail d'assistance :vous pouvez créer et suivre des tickets d'assistance via le portail d'assistance Azure Databricks.
- Assistance par chat :vous pouvez discuter en temps réel avec un ingénieur du support technique Microsoft.
- Assistance téléphonique :vous pouvez appeler le service d'assistance Microsoft et parler à un ingénieur d'assistance.
- Assistance communautaire :vous pouvez poser des questions et obtenir de l'aide auprès d'autres utilisateurs Azure Databricks sur le forum communautaire Azure Databricks.
Le niveau d'assistance dont vous bénéficiez dépend de votre plan d'assistance Azure Databricks. Azure Databricks propose divers plans d'assistance, notamment :
- Assistance de base :l'assistance de base est incluse dans tous les abonnements Azure Databricks. Elle donne accès au portail d'assistance et à l'assistance communautaire.
- Assistance standard :l'assistance standard offre un niveau d'assistance supérieur, comprenant l'accès à l'assistance par chat et par téléphone.
- Assistance Premium :l'assistance Premium offre le plus haut niveau d'assistance, y compris l'accès à une équipe d'assistance dédiée.
Vous pouvez choisir le plan d'assistance qui correspond le mieux à vos besoins et à votre budget.
Pour obtenir de l'aide sur Azure Databricks, vous pouvez créer un ticket d'assistance via le portail d'assistance Azure Databricks ou discuter en temps réel avec un ingénieur d'assistance Microsoft.
Voici quelques conseils pour tirer le meilleur parti de l'assistance Azure Databricks avec Microsoft ou US Cloud :
- Soyez précis :lorsque vous créez un ticket d'assistance, soyez aussi précis que possible au sujet du problème que vous rencontrez. Cela aidera l'équipe d'assistance à résoudre votre problème plus rapidement.
- Fournissez des informations détaillées :plus vous fournirez d'informations à l'équipe d'assistance, mieux ce sera. Il peut s'agir d'informations telles que les messages d'erreur que vous recevez, le code que vous exécutez et les données que vous utilisez.
- Soyez réactif :l'équipe d'assistance peut avoir besoin de vous poser des questions supplémentaires afin de résoudre votre problème. Veillez à répondre rapidement à leurs questions afin qu'ils puissent résoudre votre problème dans les meilleurs délais.
Dans l'ensemble, Azure Databricks propose diverses options d'assistance pour vous aider à obtenir l'aide dont vous avez besoin quand vous en avez besoin.
Houston, le problème est résolu — L'offre ouverte de US Cloud à la NASA pour les futures missions Artemis
Mettre fin au monopole de Microsoft : comment les équipes d'achats des entreprises réduisent leurs coûts d'assistance de 50 %
La « SaaSpocalypse » est là – et votre facture Microsoft ne fait qu'empirer les choses