Azure Databricks.
AZURE DATABRICKS
Azure Databricks combina almacenes de datos y lagos de datos en una arquitectura de lago. Unifique todos sus datos, análisis e inteligencia artificial en una sola plataforma.
¿Qué es Azure Databricks?
Azure Databricks es una plataforma de análisis unificada que permite a las organizaciones crear canalizaciones de datos, modelos de aprendizaje automático y paneles de control a gran escala. Se trata de un servicio totalmente gestionado que se ejecuta en Azure y proporciona un espacio de trabajo unificado para que los científicos de datos, los ingenieros de datos y los analistas de negocios colaboren en proyectos.
Azure Databricks se basa en Apache Spark, un popular marco de computación distribuida de código abierto. Proporciona un entorno Spark optimizado, así como un conjunto de herramientas y características que facilitan la creación y la implementación de aplicaciones de análisis e inteligencia artificial.
Azure Databricks es una opción muy popular para una gran variedad de casos de uso, entre los que se incluyen:
- Ingeniería de datos: Azure Databricks se puede utilizar para crear y gestionar canalizaciones de datos que procesan y transforman grandes conjuntos de datos.
- Aprendizaje automático: Azure Databricks ofrece una variedad de herramientas y bibliotecas para crear e implementar modelos de aprendizaje automático.
- Inteligencia empresarial: Azure Databricks se puede utilizar para crear paneles de control e informes que proporcionan información sobre los datos.
Azure Databricks también está estrechamente integrado con otros servicios de Azure, como Azure Storage, Azure SQL Database y Azure Machine Learning Studio. Esto facilita la creación y la implementación de soluciones integrales de análisis e inteligencia artificial en Azure.
Estas son algunas de las ventajas de utilizar Azure Databricks:
- Plataforma unificada: Azure Databricks proporciona una plataforma única para ingeniería de datos, ciencia de datos e inteligencia empresarial. Esto facilita la colaboración entre equipos en proyectos y el intercambio de datos.
- Escalabilidad: Azure Databricks puede escalarse para satisfacer las necesidades de las cargas de trabajo más exigentes. Puede gestionar petabytes de datos y miles de usuarios simultáneos.
- Rendimiento: Azure Databricks está optimizado para ofrecer un alto rendimiento y puede proporcionar información a partir de los datos de forma rápida y eficiente.
- Facilidad de uso: Azure Databricks es fácil de usar y ofrece una variedad de herramientas y funciones que ayudan a los usuarios a empezar rápidamente.
En general, Azure Databricks es una plataforma de análisis potente y versátil que se puede utilizar para resolver una amplia gama de problemas. Es una buena opción para organizaciones de todos los tamaños que desean crear e implementar soluciones integrales de análisis e inteligencia artificial.
La mejor arquitectura de Azure Databricks
La mejor arquitectura de Azure Databricks depende de las necesidades específicas de su organización y de los casos de uso que planee admitir. Sin embargo, existen algunas prácticas recomendadas generales que puede seguir para diseñar una arquitectura escalable, eficiente y segura.
A continuación se ofrecen algunos consejos para diseñar la mejor arquitectura de Azure Databricks:
- Utilice una arquitectura por capas:una arquitectura por capas separa los datos y las cargas de trabajo en diferentes capas, como una zona de aterrizaje, un lago de datos y un almacén de datos. Esto facilita la gestión de los datos y las cargas de trabajo, y también mejora el rendimiento y la seguridad.
- Utilice Delta Lake:Delta Lake es un formato de almacenamiento de código abierto que proporciona transacciones ACID y otras características que lo hacen ideal para almacenar datos en Azure Databricks. También es compatible con Spark, por lo que puede utilizar el código Spark existente para procesar y transformar sus datos.
- Utilice el autoescalado:el autoescalado permite a Azure Databricks escalar automáticamente sus clústeres hacia arriba o hacia abajo en función de la demanda. Esto puede ayudarle a ahorrar dinero en costes de computación.
- Utilice servicios administrados:Azure Databricks ofrece una variedad de servicios administrados, como cuadernos administrados y streaming administrado. Estos servicios pueden ayudarle a reducir los gastos generales operativos de la administración de su entorno Azure Databricks.
- Utilice las características de seguridad:Azure Databricks ofrece diversas características de seguridad, como el control de acceso basado en roles (RBAC) y el cifrado. Estas características pueden ayudarle a proteger sus datos y cargas de trabajo contra el acceso no autorizado.
A continuación se muestra un ejemplo de una arquitectura Azure Databricks por capas:
- Zona de aterrizaje:La zona de aterrizaje es un área de almacenamiento temporal donde los datos se ingestan por primera vez en Azure Databricks. La zona de aterrizaje se puede almacenar en Azure Blob Storage o Azure Data Lake Storage Gen2.
- Lago de datos: El lago de datos es un repositorio central para todos sus datos, independientemente de su formato o estructura. El lago de datos se puede almacenar en Azure Data Lake Blob Storage o Azure Data Lake Storage Gen2.
- Almacén de datos: El almacén de datos es un almacén de datos altamente optimizado para ejecutar consultas analíticas e informes. El almacén de datos de Azure puede almacenarse en Azure Synapse Analytics o en Azure SQL Database. Consulte las diferencias entre un lago de datos y un almacén de datos.
Los clústeres de Azure Databricks pueden acceder a los datos de la zona de aterrizaje y del lago de datos para realizar tareas de procesamiento y transformación. A continuación, los datos procesados y transformados se pueden cargar en el almacén de datos con fines analíticos.
Este es solo un ejemplo de una arquitectura de Azure Databricks. La arquitectura específica que elija dependerá de sus necesidades y casos de uso concretos.
A continuación se indican algunas prácticas recomendadas adicionales para diseñar una arquitectura de Azure Databricks:
- Utilice un sistema de control de versiones:utilice un sistema de control de versiones, como Git, para realizar un seguimiento de los cambios en sus cuadernos de Azure Databricks y otro código. Esto facilitará la colaboración con otras personas y la reversión de los cambios si es necesario.
- Utilice pruebas unitarias:utilice pruebas unitarias para probar su código de Azure Databricks. Esto le ayudará a identificar y corregir errores desde el principio.
- Utilice pruebas de integración:utilice pruebas de integración para probar su código de Azure Databricks con otros componentes de su arquitectura, como sus fuentes de datos y su almacén de datos. Esto le ayudará a garantizar que toda su arquitectura funciona conjuntamente según lo previsto.
- Supervise su arquitectura:supervise su arquitectura de Azure Databricks para identificar y resolver cualquier problema de rendimiento o seguridad. Puede utilizar Azure Databricks Monitoring para supervisar sus clústeres y trabajos.
Si sigue estas prácticas recomendadas, podrá diseñar una arquitectura de Azure Databricks que sea escalable, eficiente, segura y fiable.
Integraciones clave de Databricks con Azure
Databricks ofrece varias integraciones con Azure para proporcionar un entorno de análisis de datos y aprendizaje automático potente y sin fisuras. Estas integraciones aprovechan las capacidades de los servicios de Azure para mejorar los flujos de trabajo de ingeniería de datos, ciencia de datos y aprendizaje automático.
Estas son las principales integraciones de Databricks con Azure:
Servicio Azure Databricks: Azure Databricks es una plataforma gestionada de Apache Spark y análisis de datos que está estrechamente integrada con Azure. Proporciona un entorno colaborativo para que los ingenieros y científicos de datos trabajen juntos en proyectos de big data y aprendizaje automático.
Almacenamiento de blobs de Azure: Databricks se integra perfectamente con el almacenamiento de blobs de Azure, lo que facilita el acceso y el procesamiento de los datos almacenados en Azure Data Lake Storage o en contenedores de almacenamiento de blobs de Azure. Esta integración le permite leer y escribir datos de manera eficiente, lo que mejora los flujos de trabajo de ingeniería de datos.
Aprendizaje automático de Azure: Databricks se puede integrar con los servicios de aprendizaje automático de Azure, lo que permite a los científicos de datos entrenar e implementar modelos de aprendizaje automático utilizando clústeres de Databricks y, a continuación, implementarlos fácilmente en Azure para su uso en producción.
Azure Monitor y Azure Log Analytics: Databricks se puede integrar con Azure Monitor y Azure Log Analytics para proporcionar capacidades de supervisión, registro y diagnóstico para sus cargas de trabajo de Databricks. Esta integración ayuda a ajustar el rendimiento y a solucionar problemas.
Azure Active Directory: el inicio de sesión único con Azure Active Directory es la mejor forma de iniciar sesión en Azure Databricks. Azure Databricks también admite el aprovisionamiento automatizado de usuarios con Azure AD para crear nuevos usuarios, otorgarles el nivel de acceso adecuado y eliminar usuarios para retirarles el acceso.
Almacenamiento de lago de datos de Azure: el conector nativo de Azure Databricks para ADLS admite varios métodos de acceso a su lago de datos. Simplifique la seguridad del acceso a los datos utilizando la misma identidad de Azure AD que utiliza para iniciar sesión en Azure Databricks con Azure Active Directory Credential Passthrough. El acceso a los datos se controla mediante las funciones de ADLS y las listas de control de acceso que ya ha configurado.
Azure Data Factory: ejecute sin problemas trabajos de Azure Databricks con Azure Data Factory y aproveche los más de 90 conectores de origen de datos integrados para incorporar todas sus fuentes de datos en un único lago de datos. ADF proporciona control de flujo de trabajo integrado, transformación de datos, programación de canalizaciones, integración de datos y muchas más capacidades para ayudarle a crear canalizaciones de datos fiables.
Azure Synapse Analytics: Azure Databricks se integra con los servicios de Azure para reunir análisis, inteligencia empresarial (BI) y ciencia de datos en las aplicaciones web y móviles de Microsoft. El conector de alto rendimiento entre Azure Databricks y Azure Synapse permite una rápida transferencia de datos entre los servicios, incluida la compatibilidad con datos en streaming.
Power BI: una de las características clave que buscan los clientes al adoptar una estrategia Lakehouse es la capacidad de consumir datos de forma eficiente y segura directamente desde el lago de datos con herramientas de BI. Esto suele reducir la latencia adicional, los costes de computación y almacenamiento asociados al flujo tradicional de copiar datos ya almacenados en un lago de datos a un almacén de datos para su consumo de BI. El conector Azure Databricks en Power BI ofrece una experiencia de visualización de datos más segura e interactiva para los datos almacenados en su lago de datos.
Azure DevOps: Azure Databricks se conecta con Azure DevOps para facilitar la integración continua y la implementación continua (CI/CD). Configure Azure DevOps como su proveedor de Git y aproveche las características integradas de control de versiones.
Red virtual de Azure: la implementación predeterminada de Azure Databricks es un servicio totalmente administrado en Azure que incluye una red virtual (VNet). Azure Databricks también admite la implementación en su propia red virtual (a veces denominada inyección de VNet), lo que permite un control total de las reglas de seguridad de la red.
Azure Event Hubs: obtenga información a partir de datos de transmisión en directo conectando Azure Event Hubs a Azure Databricks y, a continuación, procese los mensajes a medida que llegan. Con Event Hubs y Azure Databricks, transmita millones de eventos por segundo desde cualquier dispositivo IoT o registros de clics en sitios web, y procéselos casi en tiempo real.
Azure Key Vault: gestione sus secretos, como claves y contraseñas, con la integración en Azure Key Vault. De forma predeterminada, todos los cuadernos y resultados de Azure Databricks se cifran en reposo con una clave de cifrado diferente. Si desea ser propietario y gestionar usted mismo la clave utilizada para cifrar sus cuadernos y resultados, puede traer su propia clave (BYOK).
Informática confidencial de Azure: los clientes pueden ejecutar sus cargas de trabajo de Azure Databricks en máquinas virtuales (VM) confidenciales de Azure. Con la compatibilidad con la informática confidencial de Azure, los clientes pueden crear una plataforma de datos integral en Databricks Lakehouse con mayor confidencialidad y privacidad mediante el cifrado de los datos en uso. Esto se basa en la compatibilidad con claves administradas por el cliente (CMK) para cifrar los datos en reposo.
Precios de Azure Databricks
Los precios de Azure Databricks se basan en dos componentes principales:
- Unidades Databricks (DBU):Las DBU son una unidad de capacidad de procesamiento. El número de DBU que necesite dependerá del tamaño y la complejidad de sus cargas de trabajo.
- Costos de almacenamiento:Azure Databricks almacena datos en Azure Blob Storage o Azure Data Lake Storage Gen2. Se le cobrarán los costos de almacenamiento asociados con sus datos.
Azure Databricks ofrece una variedad de opciones de precios, entre las que se incluyen:
- Pago por uso:esta es la opción de precios más flexible. Se le cobra en función del número de DBU que utilice y la cantidad de almacenamiento que consuma.
- Uso comprometido:esta opción de precios puede ahorrarle dinero si tiene cargas de trabajo predecibles. Usted se compromete a utilizar un número determinado de DBU durante un período de uno o tres años.
- Instancias spot:Las instancias spot pueden ser una opción rentable para cargas de trabajo que no son urgentes. Las instancias spot están disponibles a un precio reducido, pero pueden cancelarse si Azure necesita la capacidad para otras cargas de trabajo.
Puede utilizar la calculadora de precios de Azure Databricks para estimar el coste de sus cargas de trabajo de Azure Databricks.
A continuación, se incluyen algunos consejos para ahorrar dinero en Azure Databricks:
- Utilice el autoescalado:el autoescalado permite a Azure Databricks escalar automáticamente sus clústeres hacia arriba o hacia abajo en función de la demanda. Esto puede ayudarle a ahorrar dinero en costes de computación.
- Utilice servicios administrados:Azure Databricks ofrece una variedad de servicios administrados, como cuadernos administrados y streaming administrado. Estos servicios pueden ayudarle a reducir los gastos generales operativos de la administración de su entorno Azure Databricks.
- Utilizar instancias puntuales:Las instancias puntuales pueden ser una opción rentable para cargas de trabajo que no son urgentes. Las instancias puntuales están disponibles a un precio reducido, pero pueden cancelarse si Azure necesita la capacidad para otras cargas de trabajo.
En general, Azure Databricks ofrece una variedad de opciones de precios y características que le ayudarán a ahorrar dinero.
Características
Características del nivel estándar |
|||
|---|---|---|---|
| Característica | Computación para todo uso | Empleos Informática | Empleos Computación ligera |
| Cargas de trabajo interactivas para analizar datos de forma colaborativa con cuadernos. | Cargas de trabajo automatizadas para ejecutar tareas rápidas y robustas a través de API o interfaz de usuario. | Cargas de trabajo automatizadas para ejecutar tareas robustas a través de API o interfaz de usuario. | |
| Apache Spark en la plataforma Databricks | Disponible |
Disponible |
Disponible |
| Programación de tareas con bibliotecas | Disponible |
Disponible |
Disponible |
| Programación de tareas con Notebooks | Disponible |
Disponible |
No disponible |
| Grupos de piloto automático | Disponible |
Disponible |
No disponible |
| Tiempo de ejecución de Databricks para ML | Disponible |
Disponible |
No disponible |
| MLflow en Databricks Vista previa | Disponible |
Disponible |
No disponible |
| Databricks Delta | Disponible |
Disponible |
No disponible |
| Clústeres interactivos | Disponible |
No disponible |
No disponible |
| Cuadernos y colaboración | Disponible |
No disponible |
No disponible |
| Integraciones del ecosistema | Disponible |
No disponible |
No disponible |
Características del nivel Premium |
|||
| Característica | Computación para todo uso | Empleos Informática | Empleos Computación ligera |
| Cargas de trabajo interactivas para analizar datos de forma colaborativa con cuadernos. | Cargas de trabajo automatizadas para ejecutar tareas rápidas y robustas a través de API o interfaz de usuario. | Cargas de trabajo automatizadas para ejecutar tareas robustas a través de API o interfaz de usuario. | |
| Incluye características estándar. | Incluye características estándar. | Incluye características estándar. | |
| Control de acceso basado en roles para cuadernos, clústeres, trabajos y tablas. | Disponible |
Disponible |
Disponible |
| Autenticación de punto final JDBC/ODBC | Disponible |
Disponible |
Disponible |
| Registros de auditoría | Disponible |
Disponible |
Disponible |
| Todas las características del plan estándar | Disponible |
Disponible |
Disponible |
| Pasar credenciales de Azure AD | Disponible |
Disponible |
No disponible |
| Autenticación condicional | Disponible |
No disponible |
No disponible |
| Políticas de clúster (vista previa) | Disponible |
Disponible |
Disponible |
| Lista de acceso IP (vista previa) | Disponible |
Disponible |
Disponible |
| API de gestión de tokens (vista previa) | Disponible |
Disponible |
Disponible |
Características de Delta Live Tables (DLT) |
|||
| Característica | Núcleo DLT | DLT Pro | DLT Avanzado |
| Capacidades básicas | Disponible |
Disponible |
Disponible |
| Captura de datos modificados | No disponible |
Disponible |
Disponible |
| Calidad de los datos | No disponible |
No disponible |
Disponible |
Soporte para Azure Databricks
En primer lugar, las empresas deben comprender que Azure Databricks solo incluye soporte básico de Azure de forma predeterminada. Puede mejorar significativamente su soporte con el soporte unificado para Azure o el soporte de terceros para Azure en US Cloud.
El soporte técnico de Azure Databricks está disponible las 24 horas del día, los 7 días de la semana, los 365 días del año, a través de diversos canales, entre los que se incluyen:
- Portal de soporte técnico:puede crear y realizar un seguimiento de los tickets de soporte técnico a través del portal de soporte técnico de Azure Databricks.
- Soporte técnico por chat:puede chatear con un ingeniero de soporte técnico de Microsoft en tiempo real.
- Asistencia telefónica:puede llamar al servicio de asistencia de Microsoft y hablar con un ingeniero de asistencia.
- Soporte de la comunidad:Puede hacer preguntas y obtener ayuda de otros usuarios de Azure Databricks en el foro de la comunidad de Azure Databricks.
El nivel de soporte que reciba dependerá de su plan de soporte de Azure Databricks. Azure Databricks ofrece una variedad de planes de soporte, entre los que se incluyen:
- Soporte básico:El soporte básico está incluido en todas las suscripciones a Azure Databricks. Proporciona acceso al portal de soporte y al soporte de la comunidad.
- Soporte estándar:El soporte estándar ofrece un nivel superior de asistencia, incluyendo acceso al chat y al soporte telefónico.
- Soporte Premium:El soporte Premium ofrece el más alto nivel de asistencia, incluyendo acceso a un equipo de soporte dedicado.
Puedes elegir el plan de asistencia que mejor se adapte a tus necesidades y presupuesto.
Para obtener asistencia técnica para Azure Databricks, puede crear un ticket de soporte técnico a través del portal de soporte técnico de Azure Databricks o chatear con un ingeniero de soporte técnico de Microsoft en tiempo real.
A continuación, se incluyen algunos consejos para sacar el máximo partido al soporte técnico de Azure Databricks con Microsoft o US Cloud:
- Sea específico:cuando cree un ticket de asistencia, sea lo más específico posible sobre el problema que está experimentando. Esto ayudará al equipo de asistencia a resolver su problema más rápidamente.
- Proporcione información detallada:Cuanta más información pueda proporcionar al equipo de asistencia, mejor. Esto puede incluir información como los mensajes de error que recibe, el código que está ejecutando y los datos que está utilizando.
- Sea receptivo:es posible que el equipo de asistencia técnica necesite hacerle preguntas adicionales para resolver su problema. Asegúrese de responder a sus preguntas con prontitud para que puedan resolver su problema lo antes posible.
En general, Azure Databricks ofrece una variedad de opciones de soporte para ayudarle a obtener la ayuda que necesita cuando la necesita.
AZURE DATABRICKS
Azure Databricks combina almacenes de datos y lagos de datos en una arquitectura de lago. Unifique todos sus datos, análisis e inteligencia artificial en una sola plataforma.
¿Qué es Azure Databricks?
Azure Databricks es una plataforma de análisis unificada que permite a las organizaciones crear canalizaciones de datos, modelos de aprendizaje automático y paneles de control a gran escala. Se trata de un servicio totalmente gestionado que se ejecuta en Azure y proporciona un espacio de trabajo unificado para que los científicos de datos, los ingenieros de datos y los analistas de negocios colaboren en proyectos.
Azure Databricks se basa en Apache Spark, un popular marco de computación distribuida de código abierto. Proporciona un entorno Spark optimizado, así como un conjunto de herramientas y características que facilitan la creación y la implementación de aplicaciones de análisis e inteligencia artificial.
Azure Databricks es una opción muy popular para una gran variedad de casos de uso, entre los que se incluyen:
- Ingeniería de datos: Azure Databricks se puede utilizar para crear y gestionar canalizaciones de datos que procesan y transforman grandes conjuntos de datos.
- Aprendizaje automático: Azure Databricks ofrece una variedad de herramientas y bibliotecas para crear e implementar modelos de aprendizaje automático.
- Inteligencia empresarial: Azure Databricks se puede utilizar para crear paneles de control e informes que proporcionan información sobre los datos.
Azure Databricks también está estrechamente integrado con otros servicios de Azure, como Azure Storage, Azure SQL Database y Azure Machine Learning Studio. Esto facilita la creación y la implementación de soluciones integrales de análisis e inteligencia artificial en Azure.
Estas son algunas de las ventajas de utilizar Azure Databricks:
- Plataforma unificada: Azure Databricks proporciona una plataforma única para ingeniería de datos, ciencia de datos e inteligencia empresarial. Esto facilita la colaboración entre equipos en proyectos y el intercambio de datos.
- Escalabilidad: Azure Databricks puede escalarse para satisfacer las necesidades de las cargas de trabajo más exigentes. Puede gestionar petabytes de datos y miles de usuarios simultáneos.
- Rendimiento: Azure Databricks está optimizado para ofrecer un alto rendimiento y puede proporcionar información a partir de los datos de forma rápida y eficiente.
- Facilidad de uso: Azure Databricks es fácil de usar y ofrece una variedad de herramientas y funciones que ayudan a los usuarios a empezar rápidamente.
En general, Azure Databricks es una plataforma de análisis potente y versátil que se puede utilizar para resolver una amplia gama de problemas. Es una buena opción para organizaciones de todos los tamaños que desean crear e implementar soluciones integrales de análisis e inteligencia artificial.
La mejor arquitectura de Azure Databricks
La mejor arquitectura de Azure Databricks depende de las necesidades específicas de su organización y de los casos de uso que planee admitir. Sin embargo, existen algunas prácticas recomendadas generales que puede seguir para diseñar una arquitectura escalable, eficiente y segura.
A continuación se ofrecen algunos consejos para diseñar la mejor arquitectura de Azure Databricks:
- Utilice una arquitectura por capas:una arquitectura por capas separa los datos y las cargas de trabajo en diferentes capas, como una zona de aterrizaje, un lago de datos y un almacén de datos. Esto facilita la gestión de los datos y las cargas de trabajo, y también mejora el rendimiento y la seguridad.
- Utilice Delta Lake:Delta Lake es un formato de almacenamiento de código abierto que proporciona transacciones ACID y otras características que lo hacen ideal para almacenar datos en Azure Databricks. También es compatible con Spark, por lo que puede utilizar el código Spark existente para procesar y transformar sus datos.
- Utilice el autoescalado:el autoescalado permite a Azure Databricks escalar automáticamente sus clústeres hacia arriba o hacia abajo en función de la demanda. Esto puede ayudarle a ahorrar dinero en costes de computación.
- Utilice servicios administrados:Azure Databricks ofrece una variedad de servicios administrados, como cuadernos administrados y streaming administrado. Estos servicios pueden ayudarle a reducir los gastos generales operativos de la administración de su entorno Azure Databricks.
- Utilice las características de seguridad:Azure Databricks ofrece diversas características de seguridad, como el control de acceso basado en roles (RBAC) y el cifrado. Estas características pueden ayudarle a proteger sus datos y cargas de trabajo contra el acceso no autorizado.
A continuación se muestra un ejemplo de una arquitectura Azure Databricks por capas:
- Zona de aterrizaje:La zona de aterrizaje es un área de almacenamiento temporal donde los datos se ingestan por primera vez en Azure Databricks. La zona de aterrizaje se puede almacenar en Azure Blob Storage o Azure Data Lake Storage Gen2.
- Lago de datos: El lago de datos es un repositorio central para todos sus datos, independientemente de su formato o estructura. El lago de datos se puede almacenar en Azure Data Lake Blob Storage o Azure Data Lake Storage Gen2.
- Almacén de datos: El almacén de datos es un almacén de datos altamente optimizado para ejecutar consultas analíticas e informes. El almacén de datos se puede almacenar en Azure Synapse Analytics o Azure SQL Database. Consulte las diferencias entre un lago de datos y un almacén de datos.
Los clústeres de Azure Databricks pueden acceder a los datos de la zona de aterrizaje y del lago de datos para realizar tareas de procesamiento y transformación. A continuación, los datos procesados y transformados se pueden cargar en el almacén de datos con fines analíticos.
Este es solo un ejemplo de una arquitectura de Azure Databricks. La arquitectura específica que elija dependerá de sus necesidades y casos de uso concretos.
A continuación se indican algunas prácticas recomendadas adicionales para diseñar una arquitectura de Azure Databricks:
- Utilice un sistema de control de versiones:utilice un sistema de control de versiones, como Git, para realizar un seguimiento de los cambios en sus cuadernos de Azure Databricks y otro código. Esto facilitará la colaboración con otras personas y la reversión de los cambios si es necesario.
- Utilice pruebas unitarias:utilice pruebas unitarias para probar su código de Azure Databricks. Esto le ayudará a identificar y corregir errores desde el principio.
- Utilice pruebas de integración:utilice pruebas de integración para probar su código de Azure Databricks con otros componentes de su arquitectura, como sus fuentes de datos y su almacén de datos. Esto le ayudará a garantizar que toda su arquitectura funciona conjuntamente según lo previsto.
- Supervise su arquitectura:supervise su arquitectura de Azure Databricks para identificar y resolver cualquier problema de rendimiento o seguridad. Puede utilizar Azure Databricks Monitoring para supervisar sus clústeres y trabajos.
Si sigue estas prácticas recomendadas, podrá diseñar una arquitectura de Azure Databricks que sea escalable, eficiente, segura y fiable.
Integraciones clave de Databricks con Azure
Databricks ofrece varias integraciones con Azure para proporcionar un entorno de análisis de datos y aprendizaje automático potente y sin fisuras. Estas integraciones aprovechan las capacidades de los servicios de Azure para mejorar los flujos de trabajo de ingeniería de datos, ciencia de datos y aprendizaje automático.
Estas son las principales integraciones de Databricks con Azure:
Servicio Azure Databricks: Azure Databricks es una plataforma gestionada de Apache Spark y análisis de datos que está estrechamente integrada con Azure. Proporciona un entorno colaborativo para que los ingenieros y científicos de datos trabajen juntos en proyectos de big data y aprendizaje automático.
Almacenamiento de blobs de Azure: Databricks se integra perfectamente con el almacenamiento de blobs de Azure, lo que facilita el acceso y el procesamiento de los datos almacenados en Azure Data Lake Storage o en contenedores de almacenamiento de blobs de Azure. Esta integración le permite leer y escribir datos de manera eficiente, lo que mejora los flujos de trabajo de ingeniería de datos.
Aprendizaje automático de Azure: Databricks se puede integrar con los servicios de aprendizaje automático de Azure, lo que permite a los científicos de datos entrenar e implementar modelos de aprendizaje automático utilizando clústeres de Databricks y, a continuación, implementarlos fácilmente en Azure para su uso en producción.
Azure Monitor y Azure Log Analytics: Databricks se puede integrar con Azure Monitor y Azure Log Analytics para proporcionar capacidades de supervisión, registro y diagnóstico para sus cargas de trabajo de Databricks. Esta integración ayuda a ajustar el rendimiento y a solucionar problemas.
Azure Active Directory: el inicio de sesión único con Azure Active Directory es la mejor forma de iniciar sesión en Azure Databricks. Azure Databricks también admite el aprovisionamiento automatizado de usuarios con Azure AD para crear nuevos usuarios, otorgarles el nivel de acceso adecuado y eliminar usuarios para retirarles el acceso.
Almacenamiento de lago de datos de Azure: el conector nativo de Azure Databricks para ADLS admite varios métodos de acceso a su lago de datos. Simplifique la seguridad del acceso a los datos utilizando la misma identidad de Azure AD que utiliza para iniciar sesión en Azure Databricks con Azure Active Directory Credential Passthrough. El acceso a los datos se controla mediante las funciones de ADLS y las listas de control de acceso que ya ha configurado.
Azure Data Factory: ejecute sin problemas trabajos de Azure Databricks con Azure Data Factory y aproveche los más de 90 conectores de origen de datos integrados para incorporar todas sus fuentes de datos en un único lago de datos. ADF proporciona control de flujo de trabajo integrado, transformación de datos, programación de canalizaciones, integración de datos y muchas más capacidades para ayudarle a crear canalizaciones de datos fiables.
Azure Synapse Analytics: Azure Databricks se integra con los servicios de Azure para reunir análisis, inteligencia empresarial (BI) y ciencia de datos en las aplicaciones web y móviles de Microsoft. El conector de alto rendimiento entre Azure Databricks y Azure Synapse permite una rápida transferencia de datos entre los servicios, incluida la compatibilidad con datos en streaming.
Power BI: una de las características clave que buscan los clientes al adoptar una estrategia Lakehouse es la capacidad de consumir datos de forma eficiente y segura directamente desde el lago de datos con herramientas de BI. Esto suele reducir la latencia adicional, los costes de computación y almacenamiento asociados al flujo tradicional de copiar datos ya almacenados en un lago de datos a un almacén de datos para su consumo de BI. El conector Azure Databricks en Power BI ofrece una experiencia de visualización de datos más segura e interactiva para los datos almacenados en su lago de datos.
Azure DevOps: Azure Databricks se conecta con Azure DevOps para facilitar la integración continua y la implementación continua (CI/CD). Configure Azure DevOps como su proveedor de Git y aproveche las características integradas de control de versiones.
Red virtual de Azure: la implementación predeterminada de Azure Databricks es un servicio totalmente administrado en Azure que incluye una red virtual (VNet). Azure Databricks también admite la implementación en su propia red virtual (a veces denominada inyección de VNet), lo que permite un control total de las reglas de seguridad de la red.
Azure Event Hubs: obtenga información a partir de datos de transmisión en directo conectando Azure Event Hubs a Azure Databricks y, a continuación, procese los mensajes a medida que llegan. Con Event Hubs y Azure Databricks, transmita millones de eventos por segundo desde cualquier dispositivo IoT o registros de clics en sitios web, y procéselos casi en tiempo real.
Azure Key Vault: gestione sus secretos, como claves y contraseñas, con la integración en Azure Key Vault. De forma predeterminada, todos los cuadernos y resultados de Azure Databricks se cifran en reposo con una clave de cifrado diferente. Si desea ser propietario y gestionar usted mismo la clave utilizada para cifrar sus cuadernos y resultados, puede traer su propia clave (BYOK).
Informática confidencial de Azure: los clientes pueden ejecutar sus cargas de trabajo de Azure Databricks en máquinas virtuales (VM) confidenciales de Azure. Con la compatibilidad con la informática confidencial de Azure, los clientes pueden crear una plataforma de datos integral en Databricks Lakehouse con mayor confidencialidad y privacidad mediante el cifrado de los datos en uso. Esto se basa en la compatibilidad con claves administradas por el cliente (CMK) para cifrar los datos en reposo.
Precios de Azure Databricks
Los precios de Azure Databricks se basan en dos componentes principales:
- Unidades Databricks (DBU):Las DBU son una unidad de capacidad de procesamiento. El número de DBU que necesite dependerá del tamaño y la complejidad de sus cargas de trabajo.
- Costos de almacenamiento:Azure Databricks almacena datos en Azure Blob Storage o Azure Data Lake Storage Gen2. Se le cobrarán los costos de almacenamiento asociados con sus datos.
Azure Databricks ofrece una variedad de opciones de precios, entre las que se incluyen:
- Pago por uso:esta es la opción de precios más flexible. Se le cobra en función del número de DBU que utilice y la cantidad de almacenamiento que consuma.
- Uso comprometido:esta opción de precios puede ahorrarle dinero si tiene cargas de trabajo predecibles. Usted se compromete a utilizar un número determinado de DBU durante un período de uno o tres años.
- Instancias spot:Las instancias spot pueden ser una opción rentable para cargas de trabajo que no son urgentes. Las instancias spot están disponibles a un precio reducido, pero pueden cancelarse si Azure necesita la capacidad para otras cargas de trabajo.
Puede utilizar la calculadora de precios de Azure Databricks para estimar el coste de sus cargas de trabajo de Azure Databricks.
A continuación, se incluyen algunos consejos para ahorrar dinero en Azure Databricks:
- Utilice el autoescalado:el autoescalado permite a Azure Databricks escalar automáticamente sus clústeres hacia arriba o hacia abajo en función de la demanda. Esto puede ayudarle a ahorrar dinero en costes de computación.
- Utilice servicios administrados:Azure Databricks ofrece una variedad de servicios administrados, como cuadernos administrados y streaming administrado. Estos servicios pueden ayudarle a reducir los gastos generales operativos de la administración de su entorno Azure Databricks.
- Utilizar instancias puntuales:Las instancias puntuales pueden ser una opción rentable para cargas de trabajo que no son urgentes. Las instancias puntuales están disponibles a un precio reducido, pero pueden cancelarse si Azure necesita la capacidad para otras cargas de trabajo.
En general, Azure Databricks ofrece una variedad de opciones de precios y características que le ayudarán a ahorrar dinero.
Soporte para Azure Databricks
En primer lugar, las empresas deben comprender que Azure Databricks solo incluye soporte básico de Azure de forma predeterminada. Puede mejorar significativamente su soporte con el soporte unificado para Azure o el soporte de terceros para Azure en US Cloud.
El soporte técnico de Azure Databricks está disponible las 24 horas del día, los 7 días de la semana, los 365 días del año, a través de diversos canales, entre los que se incluyen:
- Portal de soporte técnico:puede crear y realizar un seguimiento de los tickets de soporte técnico a través del portal de soporte técnico de Azure Databricks.
- Soporte técnico por chat:puede chatear con un ingeniero de soporte técnico de Microsoft en tiempo real.
- Asistencia telefónica:puede llamar al servicio de asistencia de Microsoft y hablar con un ingeniero de asistencia.
- Soporte de la comunidad:Puede hacer preguntas y obtener ayuda de otros usuarios de Azure Databricks en el foro de la comunidad de Azure Databricks.
El nivel de soporte que reciba dependerá de su plan de soporte de Azure Databricks. Azure Databricks ofrece una variedad de planes de soporte, entre los que se incluyen:
- Soporte básico:El soporte básico está incluido en todas las suscripciones a Azure Databricks. Proporciona acceso al portal de soporte y al soporte de la comunidad.
- Soporte estándar:El soporte estándar ofrece un nivel superior de asistencia, incluyendo acceso al chat y al soporte telefónico.
- Soporte Premium:El soporte Premium ofrece el más alto nivel de asistencia, incluyendo acceso a un equipo de soporte dedicado.
Puedes elegir el plan de asistencia que mejor se adapte a tus necesidades y presupuesto.
Para obtener asistencia técnica para Azure Databricks, puede crear un ticket de soporte técnico a través del portal de soporte técnico de Azure Databricks o chatear con un ingeniero de soporte técnico de Microsoft en tiempo real.
A continuación, se incluyen algunos consejos para sacar el máximo partido al soporte técnico de Azure Databricks con Microsoft o US Cloud:
- Sea específico:cuando cree un ticket de asistencia, sea lo más específico posible sobre el problema que está experimentando. Esto ayudará al equipo de asistencia a resolver su problema más rápidamente.
- Proporcione información detallada:Cuanta más información pueda proporcionar al equipo de asistencia, mejor. Esto puede incluir información como los mensajes de error que recibe, el código que está ejecutando y los datos que está utilizando.
- Sea receptivo:es posible que el equipo de asistencia técnica necesite hacerle preguntas adicionales para resolver su problema. Asegúrese de responder a sus preguntas con prontitud para que puedan resolver su problema lo antes posible.
En general, Azure Databricks ofrece una variedad de opciones de soporte para ayudarle a obtener la ayuda que necesita cuando la necesita.
Por qué las empresas inteligentes nunca combinan Azure MACC con el servicio de soporte unificado
La IA está convirtiendo los contratos de SaaS en compromisos de infraestructura
Houston, tu perspectiva está asegurada: la oferta abierta de US Cloud a la NASA para las futuras misiones Artemis