Azure Databricks

Azure Databricksはデータウェアハウスとデータレイクを統合し、レイクハウスアーキテクチャを実現します。すべてのデータ、分析、AIを単一のプラットフォーム上で統合します。

Azure Databricksとは何ですか？

Azure Databricksは、組織がデータパイプライン、機械学習モデル、ダッシュボードを大規模に構築できる統合分析プラットフォームです。Azure上で動作するフルマネージドサービスであり、データサイエンティスト、データエンジニア、ビジネスアナリストがプロジェクトで共同作業するための統合ワークスペースを提供します。

Azure Databricksは、人気のオープンソース分散コンピューティングフレームワークであるApache Sparkを基盤として構築されています。最適化されたSpark環境に加え、分析およびAIアプリケーションの構築とデプロイを容易にする一連のツールと機能を提供します。

Azure Databricksは、以下のような様々なユースケースで広く利用されています：

データエンジニアリング：Azure Databricksは、大規模なデータセットを処理・変換するデータパイプラインの構築と管理に使用できます。
機械学習:Azure Databricksは、機械学習モデルの構築とデプロイのための様々なツールとライブラリを提供します。
ビジネスインテリジェンス：Azure Databricksは、データに関する洞察を提供するダッシュボードやレポートの作成に使用できます。

Azure Databricksは、Azure Storage、Azure SQL Database、Azure Machine Learning Studioなどの他のAzureサービスとも緊密に連携しています。これにより、Azure上でエンドツーエンドの分析およびAIソリューションを容易に構築・展開できます。

Azure Databricks を使用するメリットの一部を以下に示します：

統合プラットフォーム：Azure Databricksは、データエンジニアリング、データサイエンス、ビジネスインテリジェンスのための単一プラットフォームを提供します。これにより、チームがプロジェクトで協力し、データを共有することが容易になります。
スケーラビリティ:Azure Databricksは、最も要求の厳しいワークロードのニーズに対応できるよう拡張可能です。ペタバイト規模のデータと数千の同時ユーザーを処理できます。
パフォーマンス:Azure Databricksはパフォーマンスに最適化されており、データから迅速かつ効率的にインサイトを提供できます。
使いやすさ:Azure Databricksは使いやすく、ユーザーがすぐに始められるよう、様々なツールや機能を提供しています。

全体として、Azure Databricksは強力かつ多機能な分析プラットフォームであり、幅広い課題の解決に活用できます。エンドツーエンドの分析およびAIソリューションの構築と展開を目指すあらゆる規模の組織にとって優れた選択肢です。

最適なAzure Databricksアーキテクチャ

最適なAzure Databricksアーキテクチャは、組織の具体的なニーズとサポート予定のユースケースによって異なります。ただし、スケーラブルで効率的かつ安全なアーキテクチャを設計するために従うべき一般的なベストプラクティスがあります。

Azure Databricksの最適なアーキテクチャ設計に関するヒントを以下に示します：

階層型アーキテクチャを採用する：階層型アーキテクチャでは、データとワークロードをランディングゾーン、データレイク、データウェアハウスなどの異なる層に分離します。これにより、データとワークロードの管理が容易になるだけでなく、パフォーマンスとセキュリティも向上します。
Delta Lakeの使用:Delta Lakeはオープンソースのストレージ形式であり、ACIDトランザクションやその他の機能を提供するため、Azure Databricksでのデータ保存に最適です。またSparkと互換性があるため、既存のSparkコードを使用してデータの処理や変換を行うことができます。
オートスケーリングを使用する:オートスケーリングにより、Azure Databricks は需要に基づいてクラスターを自動的にスケールアップまたはスケールダウンできます。これにより、コンピューティングコストの削減が可能になります。
マネージドサービスを利用:Azure Databricksは、マネージドノートブックやマネージドストリーミングなど、さまざまなマネージドサービスを提供します。これらのサービスは、Azure Databricks環境の管理に伴う運用上の負担を軽減するのに役立ちます。
セキュリティ機能の利用:Azure Databricksは、ロールベースのアクセス制御（RBAC）や暗号化など、さまざまなセキュリティ機能を提供します。これらの機能は、データやワークロードを不正アクセスから保護するのに役立ちます。

以下は、階層化された Azure Databricks アーキテクチャの例です：

ランディングゾーン:ランディングゾーンは、データが最初に Azure Databricks に取り込まれる一時的な保存領域です。ランディングゾーンは Azure Blob Storage または Azure Data Lake Storage Gen2 に保存できます。
データレイク：データレイクは、形式や構造に関わらず、すべてのデータを一元的に保管するリポジトリです。データレイクは Azure Data Lake Blob Storage または Azure Data Lake Storage Gen2 に保存できます。
データウェアハウス:データウェアハウスは、分析クエリやレポートの実行向けに高度に最適化されたデータストアです。 Azure データウェアハウスはAzure Synapse AnalyticsまたはAzure SQL Databaseに保存できます。データレイクとデータウェアハウスの違いを参照してください。

Azure Databricksクラスターは、ランディングゾーンとデータレイク内のデータにアクセスして、処理および変換タスクを実行できます。処理および変換されたデータは、分析目的でデータウェアハウスにロードできます。

これはAzure Databricksアーキテクチャの一例に過ぎません。選択する具体的なアーキテクチャは、お客様の特定のニーズとユースケースによって異なります。

Azure Databricks アーキテクチャ設計に関する追加のベストプラクティスを以下に示します：

バージョン管理システムを使用する:Gitなどのバージョン管理システムを使用して、Azure Databricksノートブックやその他のコードの変更を追跡します。これにより、他のユーザーとの共同作業が容易になり、必要に応じて変更をロールバックできるようになります。
ユニットテストを使用する:Azure Databricks コードのテストにはユニットテストを使用してください。これにより、バグを早期に特定し修正することが可能になります。
統合テストを使用する:Azure Databricks コードを、データソースやデータウェアハウスなど、アーキテクチャの他のコンポーネントと組み合わせてテストするために統合テストを使用します。これにより、アーキテクチャ全体が期待通りに連携していることを確認できます。
アーキテクチャの監視:Azure Databricks アーキテクチャを監視し、パフォーマンスやセキュリティの問題を特定して解決します。Azure Databricks Monitoring を使用してクラスターやジョブを監視できます。

これらのベストプラクティスに従うことで、スケーラブルで効率的、かつ安全で信頼性の高い Azure Databricks アーキテクチャを設計できます。

Databricksの主要なAzure統合

Databricksは、シームレスで強力なデータ分析および機械学習環境を提供するため、Azureとの複数の連携機能を提供しています。これらの連携はAzureサービスの機能を活用し、データエンジニアリング、データサイエンス、機械学習のワークフローを強化します。

DatabricksとAzureの主な統合機能は以下の通りです：

Azure Databricks サービス– Azure Databricks 自体は、Azure と緊密に統合されたマネージドの Apache Spark およびデータ分析プラットフォームです。データエンジニアとデータサイエンティストがビッグデータおよび機械学習プロジェクトで共同作業を行うためのコラボレーション環境を提供します。

Azure Blob Storage– DatabricksはAzure Blob Storageとシームレスに連携し、Azure Data Lake StorageまたはAzure Blob Storageコンテナに保存されたデータへのアクセスと処理を容易にします。この連携により、データを効率的に読み書きでき、データエンジニアリングワークフローが強化されます。

Azure Machine Learning– DatabricksはAzure Machine Learningサービスと連携可能であり、データサイエンティストはDatabricksクラスターを使用して機械学習モデルのトレーニングとデプロイを行い、その後簡単にAzureにデプロイして本番環境で使用できます。

Azure Monitor と Azure Log Analytics– Databricks は Azure Monitor および Azure Log Analytics と連携し、Databricks ワークロード向けの監視、ロギング、診断機能を提供します。この連携により、パフォーマンス調整やトラブルシューティングが容易になります。

Azure Active Directory– Azure Active Directory を使用したシングルサインオンは、Azure Databricks にサインインする最適な方法です。Azure Databricks は Azure AD との連携による自動ユーザープロビジョニングもサポートしており、新規ユーザーの作成、適切なアクセス権限の付与、アクセス権限の解除を伴うユーザーの削除が可能です。

Azure データレイクストレージ– Azure Databricks の ADLS ネイティブコネクタは、データレイクへの複数のアクセス方法をサポートします。Azure Active Directory 資格情報パススルーを使用し、Azure Databricks へのログインに使用する Azure AD 同一性情報と同じものを活用することで、データアクセスセキュリティを簡素化できます。データアクセスは、既に設定済みの ADLS ロールとアクセス制御リスト (ACL) を通じて制御されます。

Azure Data Factory– Azure Data Factoryを使用してAzure Databricksジョブをシームレスに実行し、90以上の組み込みデータソースコネクタを活用して、すべてのデータソースを単一のデータレイクに取り込みます。ADFは、信頼性の高いデータパイプラインの構築を支援するため、組み込みのワークフロー制御、データ変換、パイプラインスケジューリング、データ統合など、多くの機能を提供します。

Azure Synapse Analytics– Azure DatabricksはAzureサービスと連携し、MicrosoftのWebおよびモバイルアプリケーション構築において、分析、ビジネスインテリジェンス（BI）、データサイエンスを統合します。Azure DatabricksとAzure Synapse間の高性能コネクタにより、ストリーミングデータのサポートを含むサービス間の高速データ転送が実現されます。

Power BI– レイクハウス戦略を採用する際に顧客が求める主要機能の一つは、BIツールを用いてデータレイクから直接データを効率的かつ安全に消費する能力です。これにより、従来のようにデータレイクに保存済みのデータをBI利用のためにデータウェアハウスへコピーするフローに伴う追加のレイテンシ、コンピューティング、ストレージコストを削減できます。 Power BIのAzure Databricksコネクタは、データレイクに保存されたデータに対して、より安全でインタラクティブなデータ可視化体験を実現します。

Azure DevOps– Azure DatabricksはAzure DevOpsと連携し、継続的インテグレーションおよび継続的デプロイメント（CI/CD）を実現します。Azure DevOpsをGitプロバイダーとして設定し、統合されたバージョン管理機能を活用してください。

Azure 仮想ネットワーク– Azure Databricks のデフォルトのデプロイは、仮想ネットワーク (VNet) を含む Azure 上の完全管理サービスです。Azure Databricks は、ネットワークセキュリティルールを完全に制御できる、お客様自身の仮想ネットワーク内でのデプロイ（VNet インジェクションとも呼ばれる）もサポートしています。

Azure Event Hubs– Azure Event Hubs を Azure Databricks に接続し、到着したメッセージを処理することで、ライブストリーミングデータからインサイトを取得します。Event Hubs と Azure Databricks を使用すれば、あらゆる IoT デバイスからの毎秒数百万件のイベントや、Web サイトのクリックストリームログをストリーミングし、ほぼリアルタイムで処理できます。

Azure Key Vault– Azure Key Vaultとの統合により、キーやパスワードなどのシークレットを管理します。デフォルトでは、すべてのAzure Databricksノートブックと結果は、異なる暗号化キーで保存時に暗号化されます。ノートブックと結果の暗号化に使用するキーを自身で所有・管理したい場合は、BYOK（Bring Your Own Key）を利用できます。

Azure機密コンピューティング– お客様はAzure機密仮想マシン(VM)上でAzure Databricksワークロードを実行できます。Azure機密コンピューティングのサポートにより、お客様は使用中のデータを暗号化することで機密性とプライバシーを強化した、Databricks Lakehouse上のエンドツーエンドデータプラットフォームを構築できます。これは、保存中のデータを暗号化するための顧客管理キー(CMK)のサポートを基盤としています。

Azure Databricks の価格

Azure Databricksの料金体系は、主に2つの要素に基づいています：

Databricks Units (DBU):DBUは処理能力の単位です。必要なDBUの数は、ワークロードの規模と複雑さに依存します。
ストレージ費用:Azure Databricks はデータを Azure Blob Storage または Azure Data Lake Storage Gen2 に保存します。お客様のデータに関連するストレージ費用が課金されます。

Azure Databricksでは、以下の料金プランを含む様々なオプションを提供しています：

従量課金制:これは最も柔軟な料金オプションです。ご利用のDBU数と消費ストレージ量に基づいて課金されます。
コミットメント利用：予測可能なワークロードがある場合、この価格オプションでコスト削減が可能です。1年または3年の期間において、一定数のDBUをコミットします。
スポットインスタンス:時間的制約のないワークロードには、コスト効率の高い選択肢となる場合があります。スポットインスタンスは割引価格で利用可能ですが、Azureが他のワークロードのためにその容量を必要とする場合、終了される可能性があります。

Azure Databricks のワークロードのコストを見積もるには、Azure Databricks の価格計算ツールをご利用いただけます。

Azure Databricksでコストを節約するためのヒントをいくつかご紹介します：

オートスケーリングを使用する:オートスケーリングにより、Azure Databricks は需要に基づいてクラスターを自動的にスケールアップまたはスケールダウンできます。これにより、コンピューティングコストの削減が可能になります。
マネージドサービスを利用:Azure Databricksは、マネージドノートブックやマネージドストリーミングなど、さまざまなマネージドサービスを提供します。これらのサービスは、Azure Databricks環境の管理に伴う運用上の負担を軽減するのに役立ちます。
スポットインスタンスの利用:時間的制約のないワークロードには、コスト効率の高い選択肢としてスポットインスタンスが利用できます。スポットインスタンスは割引価格で提供されますが、Azureが他のワークロードのためにその容量を必要とする場合、強制終了される可能性があります。

全体として、Azure Databricksはコスト削減に役立つ多様な価格オプションと機能を提供します。

特徴

スタンダードティア機能
機能	汎用コンピューティング	ジョブズ・コンピューティング	ジョブライトコンピューティング
	インタラクティブなワークロードでノートブックを用いた共同データ分析	自動化されたワークロードにより、APIまたはUI経由で高速かつ堅牢なジョブを実行	APIまたはUIを介して堅牢なジョブを実行する自動化されたワークロード
Databricksプラットフォーム上のApache Spark	利用可能	利用可能	利用可能
ライブラリを用いたジョブスケジューリング	利用可能	利用可能	利用可能
ノートブックを用いたジョブスケジューリング	利用可能	利用可能	利用不可
オートパイロットクラスター	利用可能	利用可能	利用不可
Databricks MLランタイム	利用可能	利用可能	利用不可
Databricks上のMLflowプレビュー	利用可能	利用可能	利用不可
Databricks Delta	利用可能	利用可能	利用不可
インタラクティブクラスター	利用可能	利用不可	利用不可
ノートブックとコラボレーション	利用可能	利用不可	利用不可
エコシステム統合	利用可能	利用不可	利用不可
プレミアムティア機能
機能	汎用コンピューティング	ジョブズ・コンピューティング	ジョブライトコンピューティング
	インタラクティブなワークロードでノートブックを用いた共同データ分析	自動化されたワークロードにより、APIまたはUI経由で高速かつ堅牢なジョブを実行	APIまたはUIを介して堅牢なジョブを実行する自動化されたワークロード
	標準機能を含む	標準機能を含む	標準機能を含む
ノートブック、クラスター、ジョブ、およびテーブルに対するロールベースのアクセス制御	利用可能	利用可能	利用可能
JDBC/ODBC エンドポイント認証	利用可能	利用可能	利用可能
監査ログ	利用可能	利用可能	利用可能
スタンダードプランの全機能	利用可能	利用可能	利用可能
Azure AD クレデンシャルパススルー	利用可能	利用可能	利用不可
条件付き認証	利用可能	利用不可	利用不可
クラスターポリシー（プレビュー）	利用可能	利用可能	利用可能
IPアクセスリスト（プレビュー）	利用可能	利用可能	利用可能
トークン管理API（プレビュー）	利用可能	利用可能	利用可能
デルタライブテーブル（DLT）の特徴
機能	DLTコア	DLT Pro	DLT アドバンスト
基本機能	利用可能	利用可能	利用可能
変更データキャプチャ	利用不可	利用可能	利用可能
データ品質	利用不可	利用不可	利用可能