Azure Databricks.
AZURE DATABRICKS
O Azure Databricks combina armazenamentos de dados e lagos de dados numa arquitetura lakehouse. Unifique todos os seus dados, análises e IA numa única plataforma.
O que é | Arquitetura | Integrações | Preços | Recursos | Suporte
O que é o Azure Databricks?
O Azure Databricks é uma plataforma de análise unificada que permite às organizações criar pipelines de dados, modelos de aprendizagem automática e painéis em escala. É um serviço totalmente gerido que funciona no Azure e fornece um espaço de trabalho unificado para cientistas de dados, engenheiros de dados e analistas de negócios colaborarem em projetos.
O Azure Databricks é construído com base no Apache Spark, uma popular estrutura de computação distribuída de código aberto. Ele fornece um ambiente Spark otimizado, bem como um conjunto de ferramentas e recursos que facilitam a criação e a implementação de aplicações de análise e IA.
O Azure Databricks é uma escolha popular para uma variedade de casos de uso, incluindo:
- Engenharia de dados: o Azure Databricks pode ser usado para criar e gerir pipelines de dados que processam e transformam grandes conjuntos de dados.
- Aprendizagem automática: o Azure Databricks fornece uma variedade de ferramentas e bibliotecas para criar e implementar modelos de aprendizagem automática.
- Business intelligence: o Azure Databricks pode ser usado para criar painéis e relatórios que fornecem insights sobre os dados.
O Azure Databricks também está totalmente integrado a outros serviços do Azure, como o Azure Storage, o Azure SQL Database e o Azure Machine Learning Studio. Isso facilita a criação e a implementação de soluções completas de análise e IA no Azure.
Aqui estão alguns dos benefícios de usar o Azure Databricks:
- Plataforma unificada: o Azure Databricks oferece uma plataforma única para engenharia de dados, ciência de dados e inteligência empresarial. Isso facilita a colaboração entre equipas em projetos e o compartilhamento de dados.
- Escalabilidade: o Azure Databricks pode ser dimensionado para atender às necessidades das cargas de trabalho mais exigentes. Ele pode lidar com petabytes de dados e milhares de utilizadores simultâneos.
- Desempenho: O Azure Databricks é otimizado para desempenho e pode fornecer insights a partir dos dados de forma rápida e eficiente.
- Facilidade de utilização: O Azure Databricks é fácil de utilizar e oferece uma variedade de ferramentas e funcionalidades para ajudar os utilizadores a começarem rapidamente.
No geral, o Azure Databricks é uma plataforma de análise poderosa e versátil que pode ser usada para resolver uma ampla gama de problemas. É uma boa escolha para organizações de todos os tamanhos que desejam criar e implementar soluções completas de análise e IA.
A melhor arquitetura do Azure Databricks
A melhor arquitetura do Azure Databricks depende das necessidades específicas da sua organização e dos casos de uso que pretende suportar. No entanto, existem algumas práticas recomendadas gerais que pode seguir para projetar uma arquitetura escalável, eficiente e segura.
Aqui estão algumas dicas para projetar a melhor arquitetura do Azure Databricks:
- Use uma arquitetura em camadas:uma arquitetura em camadas separa os seus dados e cargas de trabalho em diferentes camadas, como uma zona de aterragem, um data lake e um data warehouse. Isso facilita o gerenciamento dos seus dados e cargas de trabalho, além de melhorar o desempenho e a segurança.
- Use o Delta Lake:o Delta Lake é um formato de armazenamento de código aberto que oferece transações ACID e outros recursos que o tornam ideal para armazenar dados no Azure Databricks. Ele também é compatível com o Spark, portanto, você pode usar o código Spark existente para processar e transformar os seus dados.
- Use o dimensionamento automático:o dimensionamento automático permite que o Azure Databricks dimensione automaticamente os seus clusters para cima ou para baixo com base na demanda. Isso pode ajudar a economizar dinheiro em custos de computação.
- Use serviços geridos:o Azure Databricks oferece uma variedade de serviços geridos, como notebooks geridos e streaming gerido. Esses serviços podem ajudar a reduzir a sobrecarga operacional do gerenciamento do seu ambiente do Azure Databricks.
- Use recursos de segurança:o Azure Databricks oferece vários recursos de segurança, como controlo de acesso baseado em funções (RBAC) e criptografia. Esses recursos podem ajudar a proteger os seus dados e cargas de trabalho contra acesso não autorizado.
Aqui está um exemplo de uma arquitetura Azure Databricks em camadas:
- Zona de aterragem:A zona de aterragem é uma área de armazenamento temporário onde os dados são inicialmente importados para o Azure Databricks. A zona de aterragem pode ser armazenada no Azure Blob Storage ou no Azure Data Lake Storage Gen2.
- Data lake: O data lake é um repositório central para todos os seus dados, independentemente do formato ou estrutura. O data lake pode ser armazenado no Azure Data Lake Blob Storage ou Armazenamento de Lago de Dados do Azure Gen2.
- Armazenamento de dados: O armazenamento de dados é um repositório altamente otimizado para a execução de consultas analíticas e relatórios. O armazenamento de dados do Azure pode ser armazenado no Azure Synapse Analytics ou no Azure SQL Database. Veja as diferenças entre um data lake e um data warehouse.
Os clusters do Azure Databricks podem aceder aos dados na zona de aterragem e no lago de dados para realizar tarefas de processamento e transformação. Os dados processados e transformados podem então ser carregados no armazém de dados para fins analíticos.
Este é apenas um exemplo de uma arquitetura do Azure Databricks. A arquitetura específica que escolherá dependerá das suas necessidades e casos de uso específicos.
Aqui estão algumas práticas recomendadas adicionais para projetar uma arquitetura do Azure Databricks:
- Use um sistema de controlo de versões:use um sistema de controlo de versões, como o Git, para acompanhar as alterações nos seus notebooks do Azure Databricks e outros códigos. Isso facilitará a colaboração com outras pessoas e a reversão de alterações, se necessário.
- Use testes unitários:use testes unitários para testar o seu código do Azure Databricks. Isso ajudará a identificar e corrigir erros logo no início.
- Use testes de integração:use testes de integração para testar o seu código do Azure Databricks com outros componentes da sua arquitetura, como fontes de dados e armazenamento de dados. Isso ajudará a garantir que toda a sua arquitetura esteja a funcionar em conjunto conforme o esperado.
- Monitorize a sua arquitetura:monitorize a sua arquitetura do Azure Databricks para identificar e resolver quaisquer problemas de desempenho ou segurança. Pode utilizar o Azure Databricks Monitoring para monitorizar os seus clusters e trabalhos.
Seguindo estas práticas recomendadas, pode projetar uma arquitetura do Azure Databricks que seja escalável, eficiente, segura e fiável.
Principais integrações do Databricks com o Azure
A Databricks oferece várias integrações com o Azure para fornecer um ambiente de análise de dados e aprendizagem automática poderoso e sem interrupções. Essas integrações aproveitam os recursos dos serviços do Azure para aprimorar os fluxos de trabalho de engenharia de dados, ciência de dados e aprendizagem automática.
Aqui estão as principais integrações do Databricks com o Azure:
Serviço Azure Databricks – O Azure Databricks é uma plataforma gerenciada de Apache Spark e análise de dados que está totalmente integrada ao Azure. Ele oferece um ambiente colaborativo para engenheiros e cientistas de dados trabalharem juntos em projetos de big data e aprendizado de máquina.
Armazenamento de blobs do Azure – O Databricks pode ser integrado perfeitamente ao Armazenamento de Blobs do Azure, facilitando o acesso e o processamento de dados armazenados no Armazenamento de Dados do Azure ou em contentores do Armazenamento de Blobs do Azure. Essa integração permite ler e gravar dados com eficiência, aprimorando os fluxos de trabalho de engenharia de dados.
Aprendizagem automática do Azure – O Databricks pode integrar-se aos serviços de aprendizagem automática do Azure, permitindo que cientistas de dados treinem e implementem modelos de aprendizagem automática usando clusters do Databricks e, em seguida, os implementem facilmente no Azure para uso em produção.
Azure Monitor e Azure Log Analytics – O Databricks pode ser integrado ao Azure Monitor e ao Azure Log Analytics para fornecer recursos de monitoramento, registo e diagnóstico para as suas cargas de trabalho do Databricks. Essa integração ajuda no ajuste de desempenho e na resolução de problemas.
Azure Active Directory – O Single Sign-On com o Azure Active Directory é a melhor maneira de iniciar sessão no Azure Databricks. O Azure Databricks também suporta o provisionamento automatizado de utilizadores com o Azure AD para criar novos utilizadores, atribuir-lhes o nível adequado de acesso e remover utilizadores para cancelar o acesso.
Armazenamento em data lake do Azure – O conector nativo do Azure Databricks para ADLS suporta vários métodos de acesso ao seu data lake. Simplifique a segurança do acesso aos dados usando a mesma identidade do Azure AD que você usa para fazer login no Azure Databricks com o Azure Active Directory Credential Passthrough. O seu acesso aos dados é controlado por meio das funções ADLS e das listas de controlo de acesso que você já configurou.
Azure Data Factory – Execute tarefas do Azure Databricks de forma integrada usando o Azure Data Factory e aproveite mais de 90 conectores de fonte de dados integrados para importar todas as suas fontes de dados para um único data lake. O ADF oferece controlo de fluxo de trabalho integrado, transformação de dados, agendamento de pipeline, integração de dados e muitos outros recursos para ajudá-lo a criar pipelines de dados confiáveis.
Azure Synapse Analytics – O Azure Databricks integra-se aos serviços do Azure para reunir análises, inteligência empresarial (BI) e ciência de dados nas aplicações web e móveis da Microsoft. O conector de alto desempenho entre o Azure Databricks e o Azure Synapse permite a transferência rápida de dados entre os serviços, incluindo suporte para streaming de dados.
Power BI – Uma das principais funcionalidades que os clientes procuram ao adotar uma estratégia Lakehouse é a capacidade de consumir dados de forma eficiente e segura diretamente do data lake com ferramentas de BI. Isso normalmente reduz a latência adicional, os custos de computação e armazenamento associados ao fluxo tradicional de copiar dados já armazenados num data lake para um data warehouse para consumo de BI. O conector Azure Databricks no Power BI proporciona uma experiência de visualização de dados mais segura e interativa para os dados armazenados no seu data lake.
Azure DevOps – O Azure Databricks conecta-se ao Azure DevOps para ajudar a habilitar a integração contínua e a implementação contínua (CI/CD). Configure o Azure DevOps como seu provedor Git e aproveite os recursos integrados de controlo de versão.
Rede virtual do Azure – A implementação padrão do Azure Databricks é um serviço totalmente gerido no Azure que inclui uma rede virtual (VNet). O Azure Databricks também suporta a implementação na sua própria rede virtual (por vezes chamada de injeção de VNet), que permite o controlo total das regras de segurança da rede.
Azure Event Hubs – Obtenha insights a partir de dados de transmissão ao vivo conectando o Azure Event Hubs ao Azure Databricks e, em seguida, processe as mensagens à medida que elas chegam. Com o Event Hubs e o Azure Databricks, transmita milhões de eventos por segundo a partir de qualquer dispositivo IoT ou registos de cliques em sites e processe-os quase em tempo real.
Azure Key Vault – Gerencie os seus segredos, como chaves e senhas, com integração ao Azure Key Vault. Por predefinição, todos os notebooks e resultados do Azure Databricks são criptografados em repouso com uma chave de criptografia diferente. Se quiser possuir e gerenciar você mesmo a chave usada para criptografar os seus notebooks e resultados, pode trazer a sua própria chave (BYOK).
Computação confidencial do Azure – Os clientes podem executar as suas cargas de trabalho do Azure Databricks em máquinas virtuais (VMs) confidenciais do Azure. Com o suporte para computação confidencial do Azure, os clientes podem criar uma plataforma de dados completa no Databricks Lakehouse com maior confidencialidade e privacidade, criptografando os dados em uso. Isso se baseia no suporte para chaves geridas pelo cliente (CMK) para criptografar dados em repouso.
Preços do Azure Databricks
Os preços do Azure Databricks baseiam-se em dois componentes principais:
- Unidades Databricks (DBUs):as DBUs são uma unidade de capacidade de processamento. O número de DBUs necessárias dependerá do tamanho e da complexidade das suas cargas de trabalho.
- Custos de armazenamento:o Azure Databricks armazena dados no Azure Blob Storage ou no Azure Data Lake Storage Gen2. Serão cobrados os custos de armazenamento associados aos seus dados.
O Azure Databricks oferece uma variedade de opções de preços, incluindo:
- Pagamento conforme o uso:esta é a opção de preço mais flexível. A cobrança é feita com base no número de DBUs que utiliza e na quantidade de armazenamento que consome.
- Utilização comprometida:esta opção de preços pode poupar dinheiro se tiver cargas de trabalho previsíveis. Compromete-se a utilizar um determinado número de DBUs durante um período de um ou três anos.
- Instâncias spot:as instâncias spot podem ser uma opção económica para cargas de trabalho que não são sensíveis ao tempo. As instâncias spot estão disponíveis a um preço com desconto, mas podem ser encerradas se o Azure precisar da capacidade para outras cargas de trabalho.
Pode utilizar a calculadora de preços do Azure Databricks para estimar o custo das suas cargas de trabalho do Azure Databricks.
Aqui estão algumas dicas para economizar dinheiro no Azure Databricks:
- Use o dimensionamento automático:o dimensionamento automático permite que o Azure Databricks dimensione automaticamente os seus clusters para cima ou para baixo com base na demanda. Isso pode ajudar a economizar dinheiro em custos de computação.
- Use serviços geridos:o Azure Databricks oferece uma variedade de serviços geridos, como notebooks geridos e streaming gerido. Esses serviços podem ajudar a reduzir a sobrecarga operacional do gerenciamento do seu ambiente do Azure Databricks.
- Use instâncias spot:as instâncias spot podem ser uma opção econômica para cargas de trabalho que não são sensíveis ao tempo. As instâncias spot estão disponíveis a um preço com desconto, mas podem ser encerradas se o Azure precisar da capacidade para outras cargas de trabalho.
No geral, o Azure Databricks oferece uma variedade de opções de preços e funcionalidades para ajudá-lo a economizar dinheiro.
Características
Recursos do nível padrão |
|||
|---|---|---|---|
| Recurso | Computação multifuncional | Empregos Computação | Empregos Computação leve |
| Cargas de trabalho interativas para analisar dados de forma colaborativa com notebooks | Cargas de trabalho automatizadas para executar tarefas rápidas e robustas por meio de API ou interface do utilizador | Cargas de trabalho automatizadas para executar tarefas robustas por meio de API ou IU | |
| Apache Spark na plataforma Databricks | Disponível |
Disponível |
Disponível |
| Agendamento de tarefas com bibliotecas | Disponível |
Disponível |
Disponível |
| Agendamento de tarefas com Notebooks | Disponível |
Disponível |
Não disponível |
| Conjuntos de pilotos automáticos | Disponível |
Disponível |
Não disponível |
| Databricks Runtime para ML | Disponível |
Disponível |
Não disponível |
| MLflow no Databricks Preview | Disponível |
Disponível |
Não disponível |
| Databricks Delta | Disponível |
Disponível |
Não disponível |
| Clusters interativos | Disponível |
Não disponível |
Não disponível |
| Notebooks e colaboração | Disponível |
Não disponível |
Não disponível |
| Integrações do ecossistema | Disponível |
Não disponível |
Não disponível |
Recursos do nível Premium |
|||
| Recurso | Computação multifuncional | Empregos Computação | Empregos Computação leve |
| Cargas de trabalho interativas para analisar dados de forma colaborativa com notebooks | Cargas de trabalho automatizadas para executar tarefas rápidas e robustas por meio de API ou interface do utilizador | Cargas de trabalho automatizadas para executar tarefas robustas por meio de API ou IU | |
| Inclui funcionalidades padrão | Inclui funcionalidades padrão | Inclui funcionalidades padrão | |
| Controlo de acesso baseado em funções para notebooks, clusters, tarefas e tabelas | Disponível |
Disponível |
Disponível |
| Autenticação de ponto final JDBC/ODBC | Disponível |
Disponível |
Disponível |
| Registos de auditoria | Disponível |
Disponível |
Disponível |
| Todos os recursos do plano padrão | Disponível |
Disponível |
Disponível |
| Passagem de credenciais do Azure AD | Disponível |
Disponível |
Não disponível |
| Autenticação condicional | Disponível |
Não disponível |
Não disponível |
| Políticas de cluster (pré-visualização) | Disponível |
Disponível |
Disponível |
| Lista de acesso IP (pré-visualização) | Disponível |
Disponível |
Disponível |
| API de gestão de tokens (pré-visualização) | Disponível |
Disponível |
Disponível |
Recursos do Delta Live Tables (DLT) |
|||
| Recurso | Núcleo DLT | DLT Pro | DLT Avançado |
| Capacidades básicas | Disponível |
Disponível |
Disponível |
| Captura de alterações de dados | Não disponível |
Disponível |
Disponível |
| Qualidade dos dados | Não disponível |
Não disponível |
Disponível |
Suporte para Azure Databricks
Em primeiro lugar, as empresas devem compreender que o Azure Databricks inclui apenas suporte básico do Azure por predefinição. Pode melhorar significativamente o seu suporte com o Suporte Unificado para Azure ou suporte de terceiros para Azure na US Cloud.
O suporte do Azure Databricks está disponível 24 horas por dia, 7 dias por semana, 365 dias por ano, através de vários canais, incluindo:
- Portal de suporte:pode criar e acompanhar os tickets de suporte através do portal de suporte do Azure Databricks.
- Suporte por chat:pode conversar com um engenheiro de suporte da Microsoft em tempo real.
- Suporte por telefone:pode ligar para o suporte da Microsoft e falar com um engenheiro de suporte.
- Suporte da comunidade:pode fazer perguntas e obter ajuda de outros utilizadores do Azure Databricks no fórum da comunidade do Azure Databricks.
O nível de suporte que recebe depende do seu plano de suporte do Azure Databricks. O Azure Databricks oferece uma variedade de planos de suporte, incluindo:
- Suporte básico:o suporte básico está incluído em todas as subscrições do Azure Databricks. Ele fornece acesso ao portal de suporte e ao suporte da comunidade.
- Suporte padrão:O suporte padrão oferece um nível mais elevado de assistência, incluindo acesso a suporte por chat e telefone.
- Suporte Premium:O suporte Premium oferece o mais alto nível de assistência, incluindo acesso a uma equipa de suporte dedicada.
Pode escolher o plano de suporte que melhor atende às suas necessidades e ao seu orçamento.
Para obter suporte para o Azure Databricks, pode criar um ticket de suporte através do portal de suporte do Azure Databricks ou conversar com um engenheiro de suporte da Microsoft em tempo real.
Aqui estão algumas dicas para aproveitar ao máximo o suporte do Azure Databricks com a Microsoft ou a US Cloud:
- Seja específico:ao criar um ticket de suporte, seja o mais específico possível sobre o problema que está a enfrentar. Isso ajudará a equipa de suporte a resolver o seu problema mais rapidamente.
- Forneça informações detalhadas:quanto mais informações puder fornecer à equipa de suporte, melhor. Isso pode incluir informações como as mensagens de erro que está a receber, o código que está a executar e os dados que está a utilizar.
- Seja receptivo:a equipa de suporte poderá precisar fazer perguntas adicionais para resolver o seu problema. Certifique-se de responder às perguntas prontamente para que eles possam resolver o seu problema o mais rápido possível.
No geral, há várias opções de suporte disponíveis para o Azure Databricks para ajudá-lo a obter a ajuda necessária quando precisar.
AZURE DATABRICKS
O Azure Databricks combina armazenamentos de dados e lagos de dados numa arquitetura lakehouse. Unifique todos os seus dados, análises e IA numa única plataforma.
O que é | Arquitetura | Integrações | Preços | Suporte
O que é o Azure Databricks?
O Azure Databricks é uma plataforma de análise unificada que permite às organizações criar pipelines de dados, modelos de aprendizagem automática e painéis em escala. É um serviço totalmente gerido que funciona no Azure e fornece um espaço de trabalho unificado para cientistas de dados, engenheiros de dados e analistas de negócios colaborarem em projetos.
O Azure Databricks é construído com base no Apache Spark, uma popular estrutura de computação distribuída de código aberto. Ele fornece um ambiente Spark otimizado, bem como um conjunto de ferramentas e recursos que facilitam a criação e a implementação de aplicações de análise e IA.
O Azure Databricks é uma escolha popular para uma variedade de casos de uso, incluindo:
- Engenharia de dados: o Azure Databricks pode ser usado para criar e gerir pipelines de dados que processam e transformam grandes conjuntos de dados.
- Aprendizagem automática: o Azure Databricks fornece uma variedade de ferramentas e bibliotecas para criar e implementar modelos de aprendizagem automática.
- Business intelligence: o Azure Databricks pode ser usado para criar painéis e relatórios que fornecem insights sobre os dados.
O Azure Databricks também está totalmente integrado a outros serviços do Azure, como o Azure Storage, o Azure SQL Database e o Azure Machine Learning Studio. Isso facilita a criação e a implementação de soluções completas de análise e IA no Azure.
Aqui estão alguns dos benefícios de usar o Azure Databricks:
- Plataforma unificada: o Azure Databricks oferece uma plataforma única para engenharia de dados, ciência de dados e inteligência empresarial. Isso facilita a colaboração entre equipas em projetos e o compartilhamento de dados.
- Escalabilidade: o Azure Databricks pode ser dimensionado para atender às necessidades das cargas de trabalho mais exigentes. Ele pode lidar com petabytes de dados e milhares de utilizadores simultâneos.
- Desempenho: O Azure Databricks é otimizado para desempenho e pode fornecer insights a partir dos dados de forma rápida e eficiente.
- Facilidade de utilização: O Azure Databricks é fácil de utilizar e oferece uma variedade de ferramentas e funcionalidades para ajudar os utilizadores a começarem rapidamente.
No geral, o Azure Databricks é uma plataforma de análise poderosa e versátil que pode ser usada para resolver uma ampla gama de problemas. É uma boa escolha para organizações de todos os tamanhos que desejam criar e implementar soluções completas de análise e IA.
A melhor arquitetura do Azure Databricks
A melhor arquitetura do Azure Databricks depende das necessidades específicas da sua organização e dos casos de uso que pretende suportar. No entanto, existem algumas práticas recomendadas gerais que pode seguir para projetar uma arquitetura escalável, eficiente e segura.
Aqui estão algumas dicas para projetar a melhor arquitetura do Azure Databricks:
- Use uma arquitetura em camadas:uma arquitetura em camadas separa os seus dados e cargas de trabalho em diferentes camadas, como uma zona de aterragem, um data lake e um data warehouse. Isso facilita o gerenciamento dos seus dados e cargas de trabalho, além de melhorar o desempenho e a segurança.
- Use o Delta Lake:o Delta Lake é um formato de armazenamento de código aberto que oferece transações ACID e outros recursos que o tornam ideal para armazenar dados no Azure Databricks. Ele também é compatível com o Spark, portanto, você pode usar o código Spark existente para processar e transformar os seus dados.
- Use o dimensionamento automático:o dimensionamento automático permite que o Azure Databricks dimensione automaticamente os seus clusters para cima ou para baixo com base na demanda. Isso pode ajudar a economizar dinheiro em custos de computação.
- Use serviços geridos:o Azure Databricks oferece uma variedade de serviços geridos, como notebooks geridos e streaming gerido. Esses serviços podem ajudar a reduzir a sobrecarga operacional do gerenciamento do seu ambiente do Azure Databricks.
- Use recursos de segurança:o Azure Databricks oferece vários recursos de segurança, como controlo de acesso baseado em funções (RBAC) e criptografia. Esses recursos podem ajudar a proteger os seus dados e cargas de trabalho contra acesso não autorizado.
Aqui está um exemplo de uma arquitetura Azure Databricks em camadas:
- Zona de aterragem:A zona de aterragem é uma área de armazenamento temporário onde os dados são inicialmente importados para o Azure Databricks. A zona de aterragem pode ser armazenada no Azure Blob Storage ou no Azure Data Lake Storage Gen2.
- Data lake: O data lake é um repositório central para todos os seus dados, independentemente do formato ou estrutura. O data lake pode ser armazenado no Azure Data Lake Blob Storage ou Armazenamento de Lago de Dados do Azure Gen2.
- Armazenamento de dados: O armazenamento de dados é um repositório altamente otimizado para a execução de consultas analíticas e relatórios. O armazenamento de dados pode ser guardado no Azure Synapse Analytics ou no Azure SQL Database. Veja as diferenças entre um lago de dados e um armazenamento de dados.
Os clusters do Azure Databricks podem aceder aos dados na zona de aterragem e no lago de dados para realizar tarefas de processamento e transformação. Os dados processados e transformados podem então ser carregados no armazém de dados para fins analíticos.
Este é apenas um exemplo de uma arquitetura do Azure Databricks. A arquitetura específica que escolherá dependerá das suas necessidades e casos de uso específicos.
Aqui estão algumas práticas recomendadas adicionais para projetar uma arquitetura do Azure Databricks:
- Use um sistema de controlo de versões:use um sistema de controlo de versões, como o Git, para acompanhar as alterações nos seus notebooks do Azure Databricks e outros códigos. Isso facilitará a colaboração com outras pessoas e a reversão de alterações, se necessário.
- Use testes unitários:use testes unitários para testar o seu código do Azure Databricks. Isso ajudará a identificar e corrigir erros logo no início.
- Use testes de integração:use testes de integração para testar o seu código do Azure Databricks com outros componentes da sua arquitetura, como fontes de dados e armazenamento de dados. Isso ajudará a garantir que toda a sua arquitetura esteja a funcionar em conjunto conforme o esperado.
- Monitorize a sua arquitetura:monitorize a sua arquitetura do Azure Databricks para identificar e resolver quaisquer problemas de desempenho ou segurança. Pode utilizar o Azure Databricks Monitoring para monitorizar os seus clusters e trabalhos.
Seguindo estas práticas recomendadas, pode projetar uma arquitetura do Azure Databricks que seja escalável, eficiente, segura e fiável.
Principais integrações do Databricks com o Azure
A Databricks oferece várias integrações com o Azure para fornecer um ambiente de análise de dados e aprendizagem automática poderoso e sem interrupções. Essas integrações aproveitam os recursos dos serviços do Azure para aprimorar os fluxos de trabalho de engenharia de dados, ciência de dados e aprendizagem automática.
Aqui estão as principais integrações do Databricks com o Azure:
Serviço Azure Databricks – O Azure Databricks é uma plataforma gerenciada de Apache Spark e análise de dados que está totalmente integrada ao Azure. Ele oferece um ambiente colaborativo para engenheiros e cientistas de dados trabalharem juntos em projetos de big data e aprendizado de máquina.
Armazenamento de blobs do Azure – O Databricks pode ser integrado perfeitamente ao Armazenamento de Blobs do Azure, facilitando o acesso e o processamento de dados armazenados no Armazenamento de Dados do Azure ou em contentores do Armazenamento de Blobs do Azure. Essa integração permite ler e gravar dados com eficiência, aprimorando os fluxos de trabalho de engenharia de dados.
Aprendizagem automática do Azure – O Databricks pode integrar-se aos serviços de aprendizagem automática do Azure, permitindo que cientistas de dados treinem e implementem modelos de aprendizagem automática usando clusters do Databricks e, em seguida, os implementem facilmente no Azure para uso em produção.
Azure Monitor e Azure Log Analytics – O Databricks pode ser integrado ao Azure Monitor e ao Azure Log Analytics para fornecer recursos de monitoramento, registo e diagnóstico para as suas cargas de trabalho do Databricks. Essa integração ajuda no ajuste de desempenho e na resolução de problemas.
Azure Active Directory – O Single Sign-On com o Azure Active Directory é a melhor maneira de iniciar sessão no Azure Databricks. O Azure Databricks também suporta o provisionamento automatizado de utilizadores com o Azure AD para criar novos utilizadores, atribuir-lhes o nível adequado de acesso e remover utilizadores para cancelar o acesso.
Armazenamento em data lake do Azure – O conector nativo do Azure Databricks para ADLS suporta vários métodos de acesso ao seu data lake. Simplifique a segurança do acesso aos dados usando a mesma identidade do Azure AD que você usa para fazer login no Azure Databricks com o Azure Active Directory Credential Passthrough. O seu acesso aos dados é controlado por meio das funções ADLS e das listas de controlo de acesso que você já configurou.
Azure Data Factory – Execute tarefas do Azure Databricks de forma integrada usando o Azure Data Factory e aproveite mais de 90 conectores de fonte de dados integrados para importar todas as suas fontes de dados para um único data lake. O ADF oferece controlo de fluxo de trabalho integrado, transformação de dados, agendamento de pipeline, integração de dados e muitos outros recursos para ajudá-lo a criar pipelines de dados confiáveis.
Azure Synapse Analytics – O Azure Databricks integra-se aos serviços do Azure para reunir análises, inteligência empresarial (BI) e ciência de dados nas aplicações web e móveis da Microsoft. O conector de alto desempenho entre o Azure Databricks e o Azure Synapse permite a transferência rápida de dados entre os serviços, incluindo suporte para streaming de dados.
Power BI – Uma das principais funcionalidades que os clientes procuram ao adotar uma estratégia Lakehouse é a capacidade de consumir dados de forma eficiente e segura diretamente do data lake com ferramentas de BI. Isso normalmente reduz a latência adicional, os custos de computação e armazenamento associados ao fluxo tradicional de copiar dados já armazenados num data lake para um data warehouse para consumo de BI. O conector Azure Databricks no Power BI proporciona uma experiência de visualização de dados mais segura e interativa para os dados armazenados no seu data lake.
Azure DevOps – O Azure Databricks conecta-se ao Azure DevOps para ajudar a habilitar a integração contínua e a implementação contínua (CI/CD). Configure o Azure DevOps como seu provedor Git e aproveite os recursos integrados de controlo de versão.
Rede virtual do Azure – A implementação padrão do Azure Databricks é um serviço totalmente gerido no Azure que inclui uma rede virtual (VNet). O Azure Databricks também suporta a implementação na sua própria rede virtual (por vezes chamada de injeção de VNet), que permite o controlo total das regras de segurança da rede.
Azure Event Hubs – Obtenha insights a partir de dados de transmissão ao vivo conectando o Azure Event Hubs ao Azure Databricks e, em seguida, processe as mensagens à medida que elas chegam. Com o Event Hubs e o Azure Databricks, transmita milhões de eventos por segundo a partir de qualquer dispositivo IoT ou registos de cliques em sites e processe-os quase em tempo real.
Azure Key Vault – Gerencie os seus segredos, como chaves e senhas, com integração ao Azure Key Vault. Por predefinição, todos os notebooks e resultados do Azure Databricks são criptografados em repouso com uma chave de criptografia diferente. Se quiser possuir e gerenciar você mesmo a chave usada para criptografar os seus notebooks e resultados, pode trazer a sua própria chave (BYOK).
Computação confidencial do Azure – Os clientes podem executar as suas cargas de trabalho do Azure Databricks em máquinas virtuais (VMs) confidenciais do Azure. Com o suporte para computação confidencial do Azure, os clientes podem criar uma plataforma de dados completa no Databricks Lakehouse com maior confidencialidade e privacidade, criptografando os dados em uso. Isso se baseia no suporte para chaves geridas pelo cliente (CMK) para criptografar dados em repouso.
Preços do Azure Databricks
Os preços do Azure Databricks baseiam-se em dois componentes principais:
- Unidades Databricks (DBUs):as DBUs são uma unidade de capacidade de processamento. O número de DBUs necessárias dependerá do tamanho e da complexidade das suas cargas de trabalho.
- Custos de armazenamento:o Azure Databricks armazena dados no Azure Blob Storage ou no Azure Data Lake Storage Gen2. Serão cobrados os custos de armazenamento associados aos seus dados.
O Azure Databricks oferece uma variedade de opções de preços, incluindo:
- Pagamento conforme o uso:esta é a opção de preço mais flexível. A cobrança é feita com base no número de DBUs que utiliza e na quantidade de armazenamento que consome.
- Utilização comprometida:esta opção de preços pode poupar dinheiro se tiver cargas de trabalho previsíveis. Compromete-se a utilizar um determinado número de DBUs durante um período de um ou três anos.
- Instâncias spot:as instâncias spot podem ser uma opção económica para cargas de trabalho que não são sensíveis ao tempo. As instâncias spot estão disponíveis a um preço com desconto, mas podem ser encerradas se o Azure precisar da capacidade para outras cargas de trabalho.
Pode utilizar a calculadora de preços do Azure Databricks para estimar o custo das suas cargas de trabalho do Azure Databricks.
Aqui estão algumas dicas para economizar dinheiro no Azure Databricks:
- Use o dimensionamento automático:o dimensionamento automático permite que o Azure Databricks dimensione automaticamente os seus clusters para cima ou para baixo com base na demanda. Isso pode ajudar a economizar dinheiro em custos de computação.
- Use serviços geridos:o Azure Databricks oferece uma variedade de serviços geridos, como notebooks geridos e streaming gerido. Esses serviços podem ajudar a reduzir a sobrecarga operacional do gerenciamento do seu ambiente do Azure Databricks.
- Use instâncias spot:as instâncias spot podem ser uma opção econômica para cargas de trabalho que não são sensíveis ao tempo. As instâncias spot estão disponíveis a um preço com desconto, mas podem ser encerradas se o Azure precisar da capacidade para outras cargas de trabalho.
No geral, o Azure Databricks oferece uma variedade de opções de preços e funcionalidades para ajudá-lo a economizar dinheiro.
Suporte para Azure Databricks
Em primeiro lugar, as empresas devem compreender que o Azure Databricks inclui apenas suporte básico do Azure por predefinição. Pode melhorar significativamente o seu suporte com o Suporte Unificado para Azure ou suporte de terceiros para Azure na US Cloud.
O suporte do Azure Databricks está disponível 24 horas por dia, 7 dias por semana, 365 dias por ano, através de vários canais, incluindo:
- Portal de suporte:pode criar e acompanhar os tickets de suporte através do portal de suporte do Azure Databricks.
- Suporte por chat:pode conversar com um engenheiro de suporte da Microsoft em tempo real.
- Suporte por telefone:pode ligar para o suporte da Microsoft e falar com um engenheiro de suporte.
- Suporte da comunidade:pode fazer perguntas e obter ajuda de outros utilizadores do Azure Databricks no fórum da comunidade do Azure Databricks.
O nível de suporte que recebe depende do seu plano de suporte do Azure Databricks. O Azure Databricks oferece uma variedade de planos de suporte, incluindo:
- Suporte básico:o suporte básico está incluído em todas as subscrições do Azure Databricks. Ele fornece acesso ao portal de suporte e ao suporte da comunidade.
- Suporte padrão:O suporte padrão oferece um nível mais elevado de assistência, incluindo acesso a suporte por chat e telefone.
- Suporte Premium:O suporte Premium oferece o mais alto nível de assistência, incluindo acesso a uma equipa de suporte dedicada.
Pode escolher o plano de suporte que melhor atende às suas necessidades e ao seu orçamento.
Para obter suporte para o Azure Databricks, pode criar um ticket de suporte através do portal de suporte do Azure Databricks ou conversar com um engenheiro de suporte da Microsoft em tempo real.
Aqui estão algumas dicas para aproveitar ao máximo o suporte do Azure Databricks com a Microsoft ou a US Cloud:
- Seja específico:ao criar um ticket de suporte, seja o mais específico possível sobre o problema que está a enfrentar. Isso ajudará a equipa de suporte a resolver o seu problema mais rapidamente.
- Forneça informações detalhadas:quanto mais informações puder fornecer à equipa de suporte, melhor. Isso pode incluir informações como as mensagens de erro que está a receber, o código que está a executar e os dados que está a utilizar.
- Seja receptivo:a equipa de suporte poderá precisar fazer perguntas adicionais para resolver o seu problema. Certifique-se de responder às perguntas prontamente para que eles possam resolver o seu problema o mais rápido possível.
No geral, há várias opções de suporte disponíveis para o Azure Databricks para ajudá-lo a obter a ajuda necessária quando precisar.
Houston, o teu problema está resolvido — Oferta aberta da US Cloud à NASA para futuras missões Artemis
Acabar com o monopólio da Microsoft: como as equipas de compras das empresas estão a reduzir os custos de assistência em 50%
O SaaSpocalypse chegou – e a sua fatura da Microsoft só vem piorar as coisas