Azure Databricks.

AZURE DATABRICKS

Azure Databricks는 데이터 웨어하우스와 데이터 레이크를 레이크하우스 아키텍처로 통합합니다. 모든 데이터, 분석 및 AI를 단일 플랫폼에서 통합하세요.

Azure Databricks

Azure Databricks란 무엇인가요?

Azure Databricks는 조직이 대규모로 데이터 파이프라인, 머신러닝 모델 및 대시보드를 구축할 수 있도록 지원하는 통합 분석 플랫폼입니다. Azure에서 실행되는 완전 관리형 서비스로, 데이터 과학자, 데이터 엔지니어 및 비즈니스 분석가가 프로젝트를 공동 작업할 수 있는 통합 작업 공간을 제공합니다.

Azure Databricks는 널리 사용되는 오픈소스 분산 컴퓨팅 프레임워크인 Apache Spark를 기반으로 구축되었습니다. 최적화된 Spark 환경과 함께 분석 및 AI 애플리케이션 구축 및 배포를 용이하게 하는 일련의 도구와 기능을 제공합니다.

Azure Databricks는 다음과 같은 다양한 사용 사례에 널리 선택되는 솔루션입니다:

  • 데이터 엔지니어링: Azure Databricks를 사용하여 대규모 데이터 세트를 처리하고 변환하는 데이터 파이프라인을 구축하고 관리할 수 있습니다.
  • 머신 러닝: Azure Databricks는 머신 러닝 모델을 구축하고 배포하기 위한 다양한 도구와 라이브러리를 제공합니다.
  • 비즈니스 인텔리전스: Azure Databricks를 사용하여 데이터에 대한 통찰력을 제공하는 대시보드와 보고서를 생성할 수 있습니다.

Azure Databricks는 Azure Storage, Azure SQL Database, Azure Machine Learning Studio 등 다른 Azure 서비스와도 긴밀하게 통합됩니다. 이를 통해 Azure에서 엔드투엔드 분석 및 AI 솔루션을 쉽게 구축하고 배포할 수 있습니다.

Azure Databricks 사용의 장점은 다음과 같습니다:

  • 통합 플랫폼: Azure Databricks는 데이터 엔지니어링, 데이터 과학 및 비즈니스 인텔리전스를 위한 단일 플랫폼을 제공합니다. 이를 통해 팀이 프로젝트에서 협업하고 데이터를 공유하기가 더 쉬워집니다.
  • 확장성: Azure Databricks는 가장 까다로운 워크로드의 요구 사항을 충족하도록 확장할 수 있습니다. 페타바이트 규모의 데이터와 수천 명의 동시 사용자를 처리할 수 있습니다.
  • 성능: Azure Databricks는 성능을 위해 최적화되어 있으며, 데이터로부터 신속하고 효율적으로 인사이트를 도출할 수 있습니다.
  • 사용 편의성: Azure Databricks는 사용하기 쉬우며, 사용자가 빠르게 시작할 수 있도록 다양한 도구와 기능을 제공합니다.

전반적으로 Azure Databricks는 다양한 문제를 해결하는 데 활용할 수 있는 강력하고 다재다능한 분석 플랫폼입니다. 엔드투엔드 분석 및 AI 솔루션을 구축하고 배포하려는 모든 규모의 조직에 적합한 선택입니다.

최고의 Azure Databricks 아키텍처

최적의 Azure Databricks 아키텍처는 조직의 특정 요구 사항과 지원하려는 사용 사례에 따라 달라집니다. 그러나 확장 가능하고 효율적이며 안전한 아키텍처를 설계하기 위해 따를 수 있는 몇 가지 일반적인 모범 사례가 있습니다.

Azure Databricks 아키텍처를 최적으로 설계하기 위한 몇 가지 팁은 다음과 같습니다:

  • 계층형 아키텍처를 사용하십시오:계층형 아키텍처는 데이터와 워크로드를 랜딩 존, 데이터 레이크, 데이터 웨어하우스와 같은 서로 다른 계층으로 분리합니다. 이를 통해 데이터와 워크로드를 보다 쉽게 관리할 수 있으며, 성능과 보안도 향상됩니다.
  • 델타 레이크 사용:델타 레이크는 ACID 트랜잭션 및 기타 기능을 제공하는 오픈소스 저장소 형식으로, Azure Databricks에 데이터를 저장하는 데 이상적입니다. 또한 Spark와 호환되므로 기존 Spark 코드를 사용하여 데이터를 처리하고 변환할 수 있습니다.
  • 자동 확장 사용:자동 확장을 사용하면 Azure Databricks가 수요에 따라 클러스터를 자동으로 확장하거나 축소할 수 있습니다. 이를 통해 컴퓨팅 비용을 절감할 수 있습니다.
  • 관리형 서비스 사용:Azure Databricks는 관리형 노트북 및 관리형 스트리밍과 같은 다양한 관리형 서비스를 제공합니다. 이러한 서비스는 Azure Databricks 환경 관리에 따른 운영 부담을 줄이는 데 도움이 될 수 있습니다.
  • 보안 기능 사용:Azure Databricks는 역할 기반 액세스 제어(RBAC) 및 암호화와 같은 다양한 보안 기능을 제공합니다. 이러한 기능은 데이터와 워크로드를 무단 액세스로부터 보호하는 데 도움이 될 수 있습니다.

다음은 계층화된 Azure Databricks 아키텍처의 예시입니다:

  • 랜딩 존:랜딩 존은 데이터가 Azure Databricks에 처음 수집되는 임시 저장 영역입니다. 랜딩 존은 Azure Blob Storage 또는 Azure Data Lake Storage Gen2에 저장될 수 있습니다.
  • 데이터 레이크: 데이터 레이크는 형식이나 구조에 관계없이 모든 데이터를 중앙 저장소로 보관합니다. 데이터 레이크는 Azure Data Lake 블롭 스토리지 또는 Azure Data Lake Storage Gen2에 저장할 수 있습니다.
  • 데이터 웨어하우스: 데이터 웨어하우스는 분석적 쿼리와 보고서 실행을 위해 고도로 최적화된 데이터 저장소입니다. Azure 데이터 웨어하우스 는 Azure Synapse Analytics 또는 Azure SQL Database에 저장될 수 있습니다. 데이터 레이크와 데이터 웨어하우스의 차이점을 참조하십시오.

Azure Databricks 클러스터는 랜딩 존과 데이터 레이크의 데이터에 접근하여 처리 및 변환 작업을 수행할 수 있습니다. 처리 및 변환된 데이터는 이후 분석 목적으로 데이터 웨어하우스에 로드될 수 있습니다.

이는 Azure Databricks 아키텍처의 한 예시일 뿐입니다. 선택하는 구체적인 아키텍처는 특정 요구사항과 사용 사례에 따라 달라집니다.

Azure Databricks 아키텍처 설계를 위한 몇 가지 추가 모범 사례는 다음과 같습니다:

  • 버전 관리 시스템 사용:Git과 같은 버전 관리 시스템을 사용하여 Azure Databricks 노트북 및 기타 코드의 변경 사항을 추적하십시오. 이를 통해 다른 사람들과의 협업이 용이해지고 필요한 경우 변경 사항을 롤백할 수 있습니다.
  • 단위 테스트 사용:Azure Databricks 코드를 테스트하기 위해 단위 테스트를 사용하십시오. 이를 통해 버그를 조기에 발견하고 수정할 수 있습니다.
  • 통합 테스트 사용:Azure Databricks 코드를 데이터 소스 및 데이터 웨어하우스와 같은 아키텍처의 다른 구성 요소와 함께 테스트하기 위해 통합 테스트를 사용하십시오. 이를 통해 전체 아키텍처가 예상대로 함께 작동하는지 확인할 수 있습니다.
  • 아키텍처 모니터링:Azure Databricks 아키텍처를 모니터링하여 성능 또는 보안 문제를 식별하고 해결하십시오. Azure Databricks 모니터링을 사용하여 클러스터와 작업을 모니터링할 수 있습니다.

이러한 모범 사례를 따르면 확장 가능하고 효율적이며 안전하고 신뢰할 수 있는 Azure Databricks 아키텍처를 설계할 수 있습니다.

Databricks 주요 Azure 통합 기능

Databricks는 Azure와의 여러 통합 기능을 제공하여 원활하고 강력한 데이터 분석 및 머신러닝 환경을 구축합니다. 이러한 통합은 Azure 서비스의 역량을 활용하여 데이터 엔지니어링, 데이터 사이언스 및 머신러닝 워크플로를 강화합니다.

Azure와 Databricks의 주요 통합 기능은 다음과 같습니다:

Azure Databricks 서비스 – Azure Databricks 자체는 Azure와 긴밀하게 통합된 관리형 Apache Spark 및 데이터 분석 플랫폼입니다. 데이터 엔지니어와 데이터 과학자가 빅데이터 및 머신러닝 프로젝트를 함께 수행할 수 있는 협업 환경을 제공합니다.

Azure Blob Storage – Databricks는 Azure Blob Storage와 원활하게 통합되어 Azure Data Lake Storage 또는 Azure Blob Storage 컨테이너에 저장된 데이터에 쉽게 접근하고 처리할 수 있습니다. 이 통합을 통해 데이터를 효율적으로 읽고 쓸 수 있어 데이터 엔지니어링 워크플로를 향상시킵니다.

Azure 머신 러닝 – Databricks는 Azure 머신 러닝 서비스와 통합되어 데이터 과학자가 Databricks 클러스터를 사용하여 머신 러닝 모델을 훈련 및 배포한 후, 이를 Azure에 쉽게 배포하여 생산 환경에서 사용할 수 있도록 합니다.

Azure 모니터 및 Azure 로그 분석 – Databricks는 Azure 모니터 및 Azure 로그 분석과 통합되어 Databricks 워크로드에 대한 모니터링, 로깅 및 진단 기능을 제공합니다. 이 통합은 성능 튜닝 및 문제 해결에 도움이 됩니다.

Azure Active Directory – Azure Active Directory를 통한 싱글 사인온(SSO)은 Azure Databricks에 로그인하는 가장 좋은 방법입니다. Azure Databricks는 또한 Azure AD를 통한 자동화된 사용자 프로비저닝을 지원하여 새 사용자를 생성하고 적절한 수준의 액세스 권한을 부여하며 사용자를 제거하여 액세스 권한을 해제할 수 있습니다.

Azure 데이터 레이크 스토리지 – Azure Databricks의 ADLS 네이티브 커넥터는 데이터 레이크에 대한 다양한 접근 방식을 지원합니다. Azure Active Directory 자격 증명 전달을 통해 Azure Databricks 로그인 시 사용하는 동일한 Azure AD ID를 활용하여 데이터 접근 보안을 간소화하세요. 데이터 접근은 이미 설정된 ADLS 역할 및 접근 제어 목록(ACL)을 통해 제어됩니다.

Azure 데이터 팩토리 – Azure 데이터 팩토리를 사용하여 Azure Databricks 작업을 원활하게 실행하고, 90개 이상의 내장 데이터 소스 커넥터를 활용하여 모든 데이터 소스를 단일 데이터 레이크로 통합하세요. ADF는 내장된 워크플로 제어, 데이터 변환, 파이프라인 스케줄링, 데이터 통합 및 다양한 기능을 제공하여 신뢰할 수 있는 데이터 파이프라인을 구축할 수 있도록 지원합니다.

Azure Synapse Analytics – Azure Databricks는 Azure 서비스와 통합되어 Microsoft의 웹 및 모바일 애플리케이션 구축 환경에서 분석, 비즈니스 인텔리전스(BI), 데이터 과학을 하나로 묶어 제공합니다. Azure Databricks와 Azure Synapse 간의 고성능 커넥터는 스트리밍 데이터 지원을 포함하여 서비스 간 빠른 데이터 전송을 가능하게 합니다.

Power BI – 고객이 레이크하우스 전략을 도입할 때 가장 중요하게 고려하는 기능 중 하나는 BI 도구를 통해 데이터 레이크에서 직접 데이터를 효율적이고 안전하게 활용할 수 있는 능력입니다. 이는 일반적으로 데이터 레이크에 이미 저장된 데이터를 BI 활용을 위해 데이터 웨어하우스로 복사하는 기존 프로세스와 관련된 추가적인 지연 시간, 컴퓨팅 및 스토리지 비용을 줄여줍니다. Power BI의 Azure Databricks 커넥터는 데이터 레이크에 저장된 데이터에 대해 보다 안전하고 상호작용적인 데이터 시각화 경험을 제공합니다.

Azure DevOps – Azure Databricks는 Azure DevOps와 연동되어 지속적 통합 및 지속적 배포(CI/CD)를 지원합니다. Azure DevOps를 Git 공급자로 구성하고 통합된 버전 관리 기능을 활용하세요.

Azure 가상 네트워크 – Azure Databricks의 기본 배포는 Azure에서 가상 네트워크(VNet)를 포함하는 완전 관리형 서비스입니다. Azure Databricks는 또한 자체 가상 네트워크(가상 네트워크 주입이라고도 함)에 대한 배포를 지원하여 네트워크 보안 규칙에 대한 완전한 제어를 가능하게 합니다.

Azure 이벤트 허브 – Azure 이벤트 허브를 Azure Databricks에 연결하여 실시간 스트리밍 데이터로부터 인사이트를 얻고, 메시지가 도착하는 즉시 처리하세요. 이벤트 허브와 Azure Databricks를 사용하면 IoT 장치에서 초당 수백만 건의 이벤트나 웹사이트 클릭스트림 로그를 스트리밍하고 거의 실시간으로 처리할 수 있습니다.

Azure 키 볼트 – Azure 키 볼트와의 통합을 통해 키 및 암호와 같은 비밀 정보를 관리하세요. 기본적으로 모든 Azure Databricks 노트북과 결과는 저장 시 서로 다른 암호화 키로 암호화됩니다. 노트북과 결과 암호화에 사용되는 키를 직접 소유하고 관리하려면 자체 키 사용(BYOK)을 선택할 수 있습니다.

Azure 기밀 컴퓨팅 – 고객은 Azure 기밀 가상 머신(VM)에서 Azure Databricks 워크로드를 실행할 수 있습니다. Azure 기밀 컴퓨팅 지원을 통해 고객은 사용 중인 데이터를 암호화함으로써 Databricks Lakehouse에 기밀성과 프라이버시가 강화된 종단 간 데이터 플랫폼을 구축할 수 있습니다. 이는 저장 중인 데이터 암호화를 위한 고객 관리 키(CMK) 지원 기능을 기반으로 합니다.

Azure Databricks 가격 정책

Azure Databricks 가격 정책

Azure Databricks 가격 책정은 두 가지 주요 구성 요소를 기반으로 합니다:
  • 데이터브릭스 유닛(DBU):DBU는 처리 능력의 단위입니다. 필요한 DBU 수는 워크로드의 규모와 복잡성에 따라 달라집니다.
  • 저장소 비용:Azure Databricks는 데이터를 Azure Blob Storage 또는 Azure Data Lake Storage Gen2에 저장합니다. 데이터와 관련된 저장소 비용이 청구됩니다.

Azure Databricks는 다음과 같은 다양한 가격 옵션을 제공합니다:

  • 사용량 기반 요금제:가장 유연한 가격 옵션입니다. 사용한 DBU 수와 소비한 스토리지 용량에 따라 요금이 부과됩니다.
  • 약정 사용:예측 가능한 워크로드가 있는 경우 이 가격 옵션을 통해 비용을 절감할 수 있습니다. 1년 또는 3년 기간 동안 특정 수의 DBU를 약정합니다.
  • 스팟 인스턴스:시간에 민감하지 않은 워크로드에 대해 비용 효율적인 옵션이 될 수 있습니다. 스팟 인스턴스는 할인된 가격으로 이용 가능하지만, Azure가 다른 워크로드에 필요한 용량을 확보해야 할 경우 종료될 수 있습니다.

Azure Databricks 가격 계산기를 사용하여 Azure Databricks 워크로드의 비용을 추정할 수 있습니다.

Azure Databricks 비용 절감을 위한 몇 가지 팁은 다음과 같습니다:

  • 자동 확장 사용:자동 확장을 사용하면 Azure Databricks가 수요에 따라 클러스터를 자동으로 확장하거나 축소할 수 있습니다. 이를 통해 컴퓨팅 비용을 절감할 수 있습니다.
  • 관리형 서비스 사용:Azure Databricks는 관리형 노트북 및 관리형 스트리밍과 같은 다양한 관리형 서비스를 제공합니다. 이러한 서비스는 Azure Databricks 환경 관리에 따른 운영 부담을 줄이는 데 도움이 될 수 있습니다.
  • 스팟 인스턴스 사용:시간에 민감하지 않은 워크로드의 경우 스팟 인스턴스가 비용 효율적인 옵션이 될 수 있습니다. 스팟 인스턴스는 할인된 가격으로 제공되지만, Azure가 다른 워크로드에 필요한 용량을 확보해야 할 경우 종료될 수 있습니다.

전반적으로 Azure Databricks는 비용 절감을 돕기 위한 다양한 가격 옵션과 기능을 제공합니다.

기능

표준 등급 기능

기능 범용 컴퓨팅 잡스 컴퓨트 잡스 라이트 컴퓨트
노트북을 통해 협업적으로 데이터를 분석하는 대화형 워크로드 API 또는 UI를 통해 빠르고 안정적인 작업을 실행하는 자동화된 워크로드 API 또는 UI를 통해 강력한 작업을 실행하는 자동화된 워크로드
Databricks 플랫폼의 Apache Spark

사용 가능


사용 가능


사용 가능
라이브러리를 이용한 작업 스케줄링

사용 가능


사용 가능


사용 가능
노트북을 이용한 작업 스케줄링

사용 가능


사용 가능

사용 불가
자동 조종 장치 클러스터

사용 가능


사용 가능

사용 불가
Databricks 머신러닝 런타임

사용 가능


사용 가능

사용 불가
Databricks Preview의 MLflow

사용 가능


사용 가능

사용 불가
데이터브릭스 델타

사용 가능


사용 가능

사용 불가
대화형 클러스터

사용 가능

사용 불가

사용 불가
노트북과 협업

사용 가능

사용 불가

사용 불가
생태계 통합

사용 가능

사용 불가

사용 불가

프리미엄 등급 기능

기능 범용 컴퓨팅 잡스 컴퓨트 잡스 라이트 컴퓨트
노트북을 통해 협업적으로 데이터를 분석하는 대화형 워크로드 API 또는 UI를 통해 빠르고 안정적인 작업을 실행하는 자동화된 워크로드 API 또는 UI를 통해 강력한 작업을 실행하는 자동화된 워크로드
표준 기능을 포함합니다 표준 기능을 포함합니다 표준 기능을 포함합니다
노트북, 클러스터, 작업 및 테이블에 대한 역할 기반 접근 제어

사용 가능


사용 가능


사용 가능
JDBC/ODBC 엔드포인트 인증

사용 가능


사용 가능


사용 가능
감사 로그

사용 가능


사용 가능


사용 가능
모든 스탠다드 플랜 기능

사용 가능


사용 가능


사용 가능
Azure AD 자격 증명 통과

사용 가능


사용 가능

사용 불가
조건부 인증

사용 가능

사용 불가

사용 불가
클러스터 정책 (미리 보기)

사용 가능


사용 가능


사용 가능
IP 접근 목록 (미리 보기)

사용 가능


사용 가능


사용 가능
토큰 관리 API (미리 보기)

사용 가능


사용 가능


사용 가능

델타 라이브 테이블(DLT) 기능

기능 DLT 핵심 DLT Pro DLT 고급
기본 기능

사용 가능


사용 가능


사용 가능
변경 데이터 캡처
사용 불가


사용 가능


사용 가능
데이터 품질
사용 불가

사용 불가


사용 가능

Azure Databricks 지원

우선 기업들은 Azure Databricks가 기본적으로 Azure에 대한 기본 지원만 포함한다는 점을 이해해야 합니다. US Cloud의 Azure 통합 지원 또는 Azure에 대한 타사 지원을 통해 지원을 크게 향상시킬 수 있습니다.

Azure Databricks 지원은 연중무휴 24시간 다양한 채널을 통해 이용 가능합니다. 지원 채널은 다음과 같습니다:

  • 지원 포털:Azure Databricks 지원 포털을 통해 지원 티켓을 생성하고 추적할 수 있습니다.
  • 채팅 지원:실시간으로 Microsoft 지원 엔지니어와 채팅할 수 있습니다.
  • 전화 지원:Microsoft 지원 센터로 전화하여 지원 엔지니어와 상담할 수 있습니다.
  • 커뮤니티 지원:Azure Databricks 커뮤니티 포럼에서 다른 Azure Databricks 사용자에게 질문하고 도움을 받을 수 있습니다.

Azure Databricks에서 제공하는 지원 수준은 선택한 지원 플랜에 따라 달라집니다. Azure Databricks는 다음과 같은 다양한 지원 플랜을 제공합니다:

  • 기본 지원:모든 Azure Databricks 구독에는 기본 지원이 포함됩니다. 지원 포털 및 커뮤니티 지원에 대한 액세스를 제공합니다.
  • 표준 지원:표준 지원은 채팅 및 전화 지원 이용을 포함한 더 높은 수준의 지원을 제공합니다.
  • 프리미엄 지원:프리미엄 지원은 전담 지원팀 접근을 포함한 최고 수준의 지원을 제공합니다.

귀하의 필요와 예산에 가장 잘 맞는 지원 플랜을 선택하실 수 있습니다.

Azure Databricks에 대한 지원을 받으려면 Azure Databricks 지원 포털을 통해 지원 티켓을 생성하거나 Microsoft 지원 엔지니어와 실시간 채팅을 진행할 수 있습니다.

Microsoft 또는 US Cloud를 통해 Azure Databricks 지원을 최대한 활용하기 위한 몇 가지 팁은 다음과 같습니다:

  • 구체적으로 설명하세요:지원 티켓을 생성할 때는 겪고 있는 문제에 대해 가능한 한 구체적으로 설명해 주세요. 이렇게 하면 지원팀이 문제를 더 빨리 해결하는 데 도움이 됩니다.
  • 상세한 정보 제공:지원팀에 제공할 수 있는 정보가 많을수록 좋습니다. 여기에는 수신 중인 오류 메시지, 실행 중인 코드, 사용 중인 데이터 등의 정보가 포함될 수 있습니다.
  • 신속하게 응답해 주십시오:지원팀이 문제 해결을 위해 추가 질문을 드릴 수 있습니다. 문제를 최대한 빨리 해결할 수 있도록 질문에 즉시 답변해 주시기 바랍니다.

전반적으로 Azure Databricks에는 다양한 지원 옵션이 제공되어 필요할 때 필요한 도움을 받을 수 있습니다.

Azure Databricks 지원

AZURE DATABRICKS

Azure Databricks는 데이터 웨어하우스와 데이터 레이크를 레이크하우스 아키텍처로 통합합니다. 모든 데이터, 분석 및 AI를 단일 플랫폼에서 통합하세요.

Azure Databricks

Azure Databricks란 무엇인가요?

Azure Databricks는 조직이 대규모로 데이터 파이프라인, 머신러닝 모델 및 대시보드를 구축할 수 있도록 지원하는 통합 분석 플랫폼입니다. Azure에서 실행되는 완전 관리형 서비스로, 데이터 과학자, 데이터 엔지니어 및 비즈니스 분석가가 프로젝트를 공동 작업할 수 있는 통합 작업 공간을 제공합니다.

Azure Databricks는 널리 사용되는 오픈소스 분산 컴퓨팅 프레임워크인 Apache Spark를 기반으로 구축되었습니다. 최적화된 Spark 환경과 함께 분석 및 AI 애플리케이션 구축 및 배포를 용이하게 하는 일련의 도구와 기능을 제공합니다.

Azure Databricks는 다음과 같은 다양한 사용 사례에 널리 선택되는 솔루션입니다:

  • 데이터 엔지니어링: Azure Databricks를 사용하여 대규모 데이터 세트를 처리하고 변환하는 데이터 파이프라인을 구축하고 관리할 수 있습니다.
  • 머신 러닝: Azure Databricks는 머신 러닝 모델을 구축하고 배포하기 위한 다양한 도구와 라이브러리를 제공합니다.
  • 비즈니스 인텔리전스: Azure Databricks를 사용하여 데이터에 대한 통찰력을 제공하는 대시보드와 보고서를 생성할 수 있습니다.

Azure Databricks는 Azure Storage, Azure SQL Database, Azure Machine Learning Studio 등 다른 Azure 서비스와도 긴밀하게 통합됩니다. 이를 통해 Azure에서 엔드투엔드 분석 및 AI 솔루션을 쉽게 구축하고 배포할 수 있습니다.

Azure Databricks 사용의 장점은 다음과 같습니다:

  • 통합 플랫폼: Azure Databricks는 데이터 엔지니어링, 데이터 과학 및 비즈니스 인텔리전스를 위한 단일 플랫폼을 제공합니다. 이를 통해 팀이 프로젝트에서 협업하고 데이터를 공유하기가 더 쉬워집니다.
  • 확장성: Azure Databricks는 가장 까다로운 워크로드의 요구 사항을 충족하도록 확장할 수 있습니다. 페타바이트 규모의 데이터와 수천 명의 동시 사용자를 처리할 수 있습니다.
  • 성능: Azure Databricks는 성능을 위해 최적화되어 있으며, 데이터로부터 신속하고 효율적으로 인사이트를 도출할 수 있습니다.
  • 사용 편의성: Azure Databricks는 사용하기 쉬우며, 사용자가 빠르게 시작할 수 있도록 다양한 도구와 기능을 제공합니다.

전반적으로 Azure Databricks는 다양한 문제를 해결하는 데 활용할 수 있는 강력하고 다재다능한 분석 플랫폼입니다. 엔드투엔드 분석 및 AI 솔루션을 구축하고 배포하려는 모든 규모의 조직에 적합한 선택입니다.

최고의 Azure Databricks 아키텍처

최적의 Azure Databricks 아키텍처는 조직의 특정 요구 사항과 지원하려는 사용 사례에 따라 달라집니다. 그러나 확장 가능하고 효율적이며 안전한 아키텍처를 설계하기 위해 따를 수 있는 몇 가지 일반적인 모범 사례가 있습니다.

Azure Databricks 아키텍처를 최적으로 설계하기 위한 몇 가지 팁은 다음과 같습니다:

  • 계층형 아키텍처를 사용하십시오:계층형 아키텍처는 데이터와 워크로드를 랜딩 존, 데이터 레이크, 데이터 웨어하우스와 같은 서로 다른 계층으로 분리합니다. 이를 통해 데이터와 워크로드를 보다 쉽게 관리할 수 있으며, 성능과 보안도 향상됩니다.
  • 델타 레이크 사용:델타 레이크는 ACID 트랜잭션 및 기타 기능을 제공하는 오픈소스 저장소 형식으로, Azure Databricks에 데이터를 저장하는 데 이상적입니다. 또한 Spark와 호환되므로 기존 Spark 코드를 사용하여 데이터를 처리하고 변환할 수 있습니다.
  • 자동 확장 사용:자동 확장을 사용하면 Azure Databricks가 수요에 따라 클러스터를 자동으로 확장하거나 축소할 수 있습니다. 이를 통해 컴퓨팅 비용을 절감할 수 있습니다.
  • 관리형 서비스 사용:Azure Databricks는 관리형 노트북 및 관리형 스트리밍과 같은 다양한 관리형 서비스를 제공합니다. 이러한 서비스는 Azure Databricks 환경 관리에 따른 운영 부담을 줄이는 데 도움이 될 수 있습니다.
  • 보안 기능 사용:Azure Databricks는 역할 기반 액세스 제어(RBAC) 및 암호화와 같은 다양한 보안 기능을 제공합니다. 이러한 기능은 데이터와 워크로드를 무단 액세스로부터 보호하는 데 도움이 될 수 있습니다.

다음은 계층화된 Azure Databricks 아키텍처의 예시입니다:

  • 랜딩 존:랜딩 존은 데이터가 Azure Databricks에 처음 수집되는 임시 저장 영역입니다. 랜딩 존은 Azure Blob Storage 또는 Azure Data Lake Storage Gen2에 저장될 수 있습니다.
  • 데이터 레이크: 데이터 레이크는 형식이나 구조에 관계없이 모든 데이터를 중앙 저장소로 보관합니다. 데이터 레이크는 Azure Data Lake 블롭 스토리지 또는 Azure Data Lake Storage Gen2에 저장할 수 있습니다.
  • 데이터 웨어하우스: 데이터 웨어하우스는 분석 쿼리 및 보고서 실행을 위해 고도로 최적화된 데이터 저장소입니다. 데이터 웨어하우스는 Azure Synapse Analytics 또는 Azure SQL Database에 저장될 수 있습니다. 데이터 레이크와 데이터 웨어하우스의 차이점을 참조하십시오.

Azure Databricks 클러스터는 랜딩 존과 데이터 레이크의 데이터에 접근하여 처리 및 변환 작업을 수행할 수 있습니다. 처리 및 변환된 데이터는 이후 분석 목적으로 데이터 웨어하우스에 로드될 수 있습니다.

이는 Azure Databricks 아키텍처의 한 예시일 뿐입니다. 선택하는 구체적인 아키텍처는 특정 요구사항과 사용 사례에 따라 달라집니다.

Azure Databricks 아키텍처 설계를 위한 몇 가지 추가 모범 사례는 다음과 같습니다:

  • 버전 관리 시스템 사용:Git과 같은 버전 관리 시스템을 사용하여 Azure Databricks 노트북 및 기타 코드의 변경 사항을 추적하십시오. 이를 통해 다른 사람들과의 협업이 용이해지고 필요한 경우 변경 사항을 롤백할 수 있습니다.
  • 단위 테스트 사용:Azure Databricks 코드를 테스트하기 위해 단위 테스트를 사용하십시오. 이를 통해 버그를 조기에 발견하고 수정할 수 있습니다.
  • 통합 테스트 사용:Azure Databricks 코드를 데이터 소스 및 데이터 웨어하우스와 같은 아키텍처의 다른 구성 요소와 함께 테스트하기 위해 통합 테스트를 사용하십시오. 이를 통해 전체 아키텍처가 예상대로 함께 작동하는지 확인할 수 있습니다.
  • 아키텍처 모니터링:Azure Databricks 아키텍처를 모니터링하여 성능 또는 보안 문제를 식별하고 해결하십시오. Azure Databricks 모니터링을 사용하여 클러스터와 작업을 모니터링할 수 있습니다.

이러한 모범 사례를 따르면 확장 가능하고 효율적이며 안전하고 신뢰할 수 있는 Azure Databricks 아키텍처를 설계할 수 있습니다.

Databricks 주요 Azure 통합 기능

Databricks는 Azure와의 여러 통합 기능을 제공하여 원활하고 강력한 데이터 분석 및 머신러닝 환경을 구축합니다. 이러한 통합은 Azure 서비스의 역량을 활용하여 데이터 엔지니어링, 데이터 사이언스 및 머신러닝 워크플로를 강화합니다.

Azure와 Databricks의 주요 통합 기능은 다음과 같습니다:

Azure Databricks 서비스 – Azure Databricks 자체는 Azure와 긴밀하게 통합된 관리형 Apache Spark 및 데이터 분석 플랫폼입니다. 데이터 엔지니어와 데이터 과학자가 빅데이터 및 머신러닝 프로젝트를 함께 수행할 수 있는 협업 환경을 제공합니다.

Azure Blob Storage – Databricks는 Azure Blob Storage와 원활하게 통합되어 Azure Data Lake Storage 또는 Azure Blob Storage 컨테이너에 저장된 데이터에 쉽게 접근하고 처리할 수 있습니다. 이 통합을 통해 데이터를 효율적으로 읽고 쓸 수 있어 데이터 엔지니어링 워크플로를 향상시킵니다.

Azure 머신 러닝 – Databricks는 Azure 머신 러닝 서비스와 통합되어 데이터 과학자가 Databricks 클러스터를 사용하여 머신 러닝 모델을 훈련 및 배포한 후, 이를 Azure에 쉽게 배포하여 생산 환경에서 사용할 수 있도록 합니다.

Azure 모니터 및 Azure 로그 분석 – Databricks는 Azure 모니터 및 Azure 로그 분석과 통합되어 Databricks 워크로드에 대한 모니터링, 로깅 및 진단 기능을 제공합니다. 이 통합은 성능 튜닝 및 문제 해결에 도움이 됩니다.

Azure Active Directory – Azure Active Directory를 통한 싱글 사인온(SSO)은 Azure Databricks에 로그인하는 가장 좋은 방법입니다. Azure Databricks는 또한 Azure AD를 통한 자동화된 사용자 프로비저닝을 지원하여 새 사용자를 생성하고 적절한 수준의 액세스 권한을 부여하며 사용자를 제거하여 액세스 권한을 해제할 수 있습니다.

Azure 데이터 레이크 스토리지 – Azure Databricks의 ADLS 네이티브 커넥터는 데이터 레이크에 대한 다양한 접근 방식을 지원합니다. Azure Active Directory 자격 증명 전달을 통해 Azure Databricks 로그인 시 사용하는 동일한 Azure AD ID를 활용하여 데이터 접근 보안을 간소화하세요. 데이터 접근은 이미 설정된 ADLS 역할 및 접근 제어 목록(ACL)을 통해 제어됩니다.

Azure 데이터 팩토리 – Azure 데이터 팩토리를 사용하여 Azure Databricks 작업을 원활하게 실행하고, 90개 이상의 내장 데이터 소스 커넥터를 활용하여 모든 데이터 소스를 단일 데이터 레이크로 통합하세요. ADF는 내장된 워크플로 제어, 데이터 변환, 파이프라인 스케줄링, 데이터 통합 및 다양한 기능을 제공하여 신뢰할 수 있는 데이터 파이프라인을 구축할 수 있도록 지원합니다.

Azure Synapse Analytics – Azure Databricks는 Azure 서비스와 통합되어 Microsoft의 웹 및 모바일 애플리케이션 구축 환경에서 분석, 비즈니스 인텔리전스(BI), 데이터 과학을 하나로 묶어 제공합니다. Azure Databricks와 Azure Synapse 간의 고성능 커넥터는 스트리밍 데이터 지원을 포함하여 서비스 간 빠른 데이터 전송을 가능하게 합니다.

Power BI – 고객이 레이크하우스 전략을 도입할 때 가장 중요하게 고려하는 기능 중 하나는 BI 도구를 통해 데이터 레이크에서 직접 데이터를 효율적이고 안전하게 활용할 수 있는 능력입니다. 이는 일반적으로 데이터 레이크에 이미 저장된 데이터를 BI 활용을 위해 데이터 웨어하우스로 복사하는 기존 프로세스와 관련된 추가적인 지연 시간, 컴퓨팅 및 스토리지 비용을 줄여줍니다. Power BI의 Azure Databricks 커넥터는 데이터 레이크에 저장된 데이터에 대해 보다 안전하고 상호작용적인 데이터 시각화 경험을 제공합니다.

Azure DevOps – Azure Databricks는 Azure DevOps와 연동되어 지속적 통합 및 지속적 배포(CI/CD)를 지원합니다. Azure DevOps를 Git 공급자로 구성하고 통합된 버전 관리 기능을 활용하세요.

Azure 가상 네트워크 – Azure Databricks의 기본 배포는 Azure에서 가상 네트워크(VNet)를 포함하는 완전 관리형 서비스입니다. Azure Databricks는 또한 자체 가상 네트워크(가상 네트워크 주입이라고도 함)에 대한 배포를 지원하여 네트워크 보안 규칙에 대한 완전한 제어를 가능하게 합니다.

Azure 이벤트 허브 – Azure 이벤트 허브를 Azure Databricks에 연결하여 실시간 스트리밍 데이터로부터 인사이트를 얻고, 메시지가 도착하는 즉시 처리하세요. 이벤트 허브와 Azure Databricks를 사용하면 IoT 장치에서 초당 수백만 건의 이벤트나 웹사이트 클릭스트림 로그를 스트리밍하고 거의 실시간으로 처리할 수 있습니다.

Azure 키 볼트 – Azure 키 볼트와의 통합을 통해 키 및 암호와 같은 비밀 정보를 관리하세요. 기본적으로 모든 Azure Databricks 노트북과 결과는 저장 시 서로 다른 암호화 키로 암호화됩니다. 노트북과 결과 암호화에 사용되는 키를 직접 소유하고 관리하려면 자체 키 사용(BYOK)을 선택할 수 있습니다.

Azure 기밀 컴퓨팅 – 고객은 Azure 기밀 가상 머신(VM)에서 Azure Databricks 워크로드를 실행할 수 있습니다. Azure 기밀 컴퓨팅 지원을 통해 고객은 사용 중인 데이터를 암호화함으로써 Databricks Lakehouse에 기밀성과 프라이버시가 강화된 종단 간 데이터 플랫폼을 구축할 수 있습니다. 이는 저장 중인 데이터 암호화를 위한 고객 관리 키(CMK) 지원 기능을 기반으로 합니다.

Azure Databricks 가격 정책

Azure Databricks 가격 정책

Azure Databricks 가격 책정은 두 가지 주요 구성 요소를 기반으로 합니다:
  • 데이터브릭스 유닛(DBU):DBU는 처리 능력의 단위입니다. 필요한 DBU 수는 워크로드의 규모와 복잡성에 따라 달라집니다.
  • 저장소 비용:Azure Databricks는 데이터를 Azure Blob Storage 또는 Azure Data Lake Storage Gen2에 저장합니다. 데이터와 관련된 저장소 비용이 청구됩니다.

Azure Databricks는 다음과 같은 다양한 가격 옵션을 제공합니다:

  • 사용량 기반 요금제:가장 유연한 가격 옵션입니다. 사용한 DBU 수와 소비한 스토리지 용량에 따라 요금이 부과됩니다.
  • 약정 사용:예측 가능한 워크로드가 있는 경우 이 가격 옵션을 통해 비용을 절감할 수 있습니다. 1년 또는 3년 기간 동안 특정 수의 DBU를 약정합니다.
  • 스팟 인스턴스:시간에 민감하지 않은 워크로드에 대해 비용 효율적인 옵션이 될 수 있습니다. 스팟 인스턴스는 할인된 가격으로 이용 가능하지만, Azure가 다른 워크로드에 필요한 용량을 확보해야 할 경우 종료될 수 있습니다.

Azure Databricks 가격 계산기를 사용하여 Azure Databricks 워크로드의 비용을 추정할 수 있습니다.

Azure Databricks 비용 절감을 위한 몇 가지 팁은 다음과 같습니다:

  • 자동 확장 사용:자동 확장을 사용하면 Azure Databricks가 수요에 따라 클러스터를 자동으로 확장하거나 축소할 수 있습니다. 이를 통해 컴퓨팅 비용을 절감할 수 있습니다.
  • 관리형 서비스 사용:Azure Databricks는 관리형 노트북 및 관리형 스트리밍과 같은 다양한 관리형 서비스를 제공합니다. 이러한 서비스는 Azure Databricks 환경 관리에 따른 운영 부담을 줄이는 데 도움이 될 수 있습니다.
  • 스팟 인스턴스 사용:시간에 민감하지 않은 워크로드의 경우 스팟 인스턴스가 비용 효율적인 옵션이 될 수 있습니다. 스팟 인스턴스는 할인된 가격으로 제공되지만, Azure가 다른 워크로드에 필요한 용량을 확보해야 할 경우 종료될 수 있습니다.

전반적으로 Azure Databricks는 비용 절감을 돕기 위한 다양한 가격 옵션과 기능을 제공합니다.

Azure Databricks 지원

우선 기업들은 Azure Databricks가 기본적으로 Azure에 대한 기본 지원만 포함한다는 점을 이해해야 합니다. US Cloud의 Azure 통합 지원 또는 Azure에 대한 타사 지원을 통해 지원을 크게 향상시킬 수 있습니다.

Azure Databricks 지원은 연중무휴 24시간 다양한 채널을 통해 이용 가능합니다. 지원 채널은 다음과 같습니다:

  • 지원 포털:Azure Databricks 지원 포털을 통해 지원 티켓을 생성하고 추적할 수 있습니다.
  • 채팅 지원:실시간으로 Microsoft 지원 엔지니어와 채팅할 수 있습니다.
  • 전화 지원:Microsoft 지원 센터로 전화하여 지원 엔지니어와 상담할 수 있습니다.
  • 커뮤니티 지원:Azure Databricks 커뮤니티 포럼에서 다른 Azure Databricks 사용자에게 질문하고 도움을 받을 수 있습니다.

Azure Databricks에서 제공하는 지원 수준은 선택한 지원 플랜에 따라 달라집니다. Azure Databricks는 다음과 같은 다양한 지원 플랜을 제공합니다:

  • 기본 지원:모든 Azure Databricks 구독에는 기본 지원이 포함됩니다. 지원 포털 및 커뮤니티 지원에 대한 액세스를 제공합니다.
  • 표준 지원:표준 지원은 채팅 및 전화 지원 이용을 포함한 더 높은 수준의 지원을 제공합니다.
  • 프리미엄 지원:프리미엄 지원은 전담 지원팀 접근을 포함한 최고 수준의 지원을 제공합니다.

귀하의 필요와 예산에 가장 잘 맞는 지원 플랜을 선택하실 수 있습니다.

Azure Databricks에 대한 지원을 받으려면 Azure Databricks 지원 포털을 통해 지원 티켓을 생성하거나 Microsoft 지원 엔지니어와 실시간 채팅을 진행할 수 있습니다.

Microsoft 또는 US Cloud를 통해 Azure Databricks 지원을 최대한 활용하기 위한 몇 가지 팁은 다음과 같습니다:

  • 구체적으로 설명하세요:지원 티켓을 생성할 때는 겪고 있는 문제에 대해 가능한 한 구체적으로 설명해 주세요. 이렇게 하면 지원팀이 문제를 더 빨리 해결하는 데 도움이 됩니다.
  • 상세한 정보 제공:지원팀에 제공할 수 있는 정보가 많을수록 좋습니다. 여기에는 수신 중인 오류 메시지, 실행 중인 코드, 사용 중인 데이터 등의 정보가 포함될 수 있습니다.
  • 신속하게 응답해 주십시오:지원팀이 문제 해결을 위해 추가 질문을 드릴 수 있습니다. 문제를 최대한 빨리 해결할 수 있도록 질문에 즉시 답변해 주시기 바랍니다.

전반적으로 Azure Databricks에는 다양한 지원 옵션이 제공되어 필요할 때 필요한 도움을 받을 수 있습니다.

Azure Databricks 지원
US Cloud로부터 견적을 받아 Microsoft의 통합 지원 가격을 낮추도록 하십시오

마이크로소프트와 무턱대고 협상하지 마라

91%의 경우, 미국 클라우드 견적을 마이크로소프트에 제시하는 기업들은 즉시 할인과 더 빠른 조건 양보를 경험합니다.

전환하지 않더라도 미국 클라우드 견적은 다음과 같은 혜택을 제공합니다:

  • 실제 시장 가격 책정으로 마이크로소프트의 '받아들이거나 포기하라'는 태도에 도전
  • 구체적인 절감 목표 – 고객사는 통합 솔루션 대비 30~50% 절감
  • 협상 탄약 – 합법적인 대안이 있음을 증명하라
  • 리스크 없는 정보 – 의무도, 압박도 없습니다

 

"US Cloud는 마이크로소프트 비용을 120만 달러 절감하는 데 필요한 해결책이었습니다"
— 포춘 500대 기업, CIO