Insight Technology

このエントリーをはてなブックマークに追加

分析に適したリアルタイムのデータをDatabricks Lakehouseへ提供

Qlik Replicate
データ統合
ホワイトペーパー

Databricks:多くの企業に選ばれているレイクハウス

Databricksは、ここ10年間でデータストレージ向けの信頼性と柔軟性に優れた高性能なソリューションとして、頭角を現してきました。これには納得できる理由があります。データの種類や量の増加、高速化に伴い、データチームへの要求は今まで以上に厳しくなりました。Databricksは、より多くのデータを、より多くのユーザーに、より迅速に提供することで、投資利益率(ROI)の迅速な達成と競争力の向上をサポートしてきました。

Databricksは、以下を実現します。
• 膨大な量のデータを迅速かつ確実に保存
• 構造化データと非構造化データの格納を可能にし、両データのニーズに対応
• エンタープライズデータ向け中央リポジトリ(真の単一のソース)の構築
• ニーズの変化に応じた迅速な拡張と縮小
• データエンジニアによる AI / 機械学習モデルの作成とトレーニングを迅速かつ容易に実行
• データウェアハウス関連のコスト削減

Databricksで投資利益率(ROI)を加速

データレイクは、データと分析の戦略、特に AI・機械学習・データサイエンスの戦略において、基盤となるアーキテクチャです。あらゆるデータ管理を自動化することで、Databricksのパワーを強化し、より迅速に投資利益率(ROI)を達成して、今日の増え続けるデータ需要に対応します。

・取り込み
当然、データをデータレイクに取り込まなくてはなりません。数種類のデータだけでなく、保有するすべてのソースからあらゆる種類のデータを取り込む必要があります。構造化・非構造化データも、すべて取り込みます。多くのビジネスがリアルタイムで動いている今、変化に応じて継続的にデータを取り込むことが不可欠です。時間を要する従来のバッチ処理では、今日のような大量のデータを処理することは不可能です。

・変換
競争力を維持するには、Databricksに取り込んだデータを、AI・機械学習・データサイエンス・分析で利用できるようにする必要があります。とはいえ、データ変換は複雑な作業です。多くのエンジニアを雇って手動で変換を行ったとしても(そのような余裕がある企業はないと思いますが)、数え切れないほどのミスが発生する可能性があります。

・利用
IT部門を頼らずにユーザーにデータを提供することも重要です。ユーザーが必要とするデータセットを容易に見つけて他のデータセットと組み合わせ、そのデータの出所を把握できるようにすべきです。そして、誰もが確信を持って信頼できるデータにする必要があります。つまり、パイプライン全体で、データの統制・許可・セキュリティを確保する必要があります。

データ統合ソリューションに求められるもの

データレイクの構築を自動化する場合、プラットフォームには何が必要なのか。
理想的なソリューションには、以下が不可欠です。

汎用的かつリアルタイムのデータ取り込み

変更データキャプチャ(CDC)機能を備えたソリューションが適切です。データベース・データウェアハウス・レガシーメインフレームシステム・SAPなどのエンタープライズアプリを含め、ほぼすべてのソースから大量のトランザクションデータを直接Databricks Unified Analytics Platform に取り込み、継続的に更新できる機能が求められます。これにより、AI・機械学習データサイエンス・分析の戦略の強化に使用するデータを、常に最新に保つことができます。

求められる機能:

・リアルタイムの変更データキャプチャ
データセットとメタデータに発生した変更のみを特定して移行し、ソーススキーマの変更を再スクリプトすることなく容易に取得

・大規模なデータの取り込み
即座に多種多様なデータソースに接続し、Microsoft Azure / Amazon Web Services / Google Cloud Platformなどの主要プラットフォーム上のクラウドオブジェクトストレージを介した Delta Lakeへのロードをサポート

・監視と制御の一元化
完全に自動化された単一のコンソールで、手動のコーディングなしで何千ものデータ複製作業を設計・実行・監視

・高速性
中間フォーマットでの保存を省略できるDatabricks Lakehouse(Delta)エンドポイントコネクターによるデータ複製の高速化など

・コスト効率
通常のインタラクティブなDatabricksクラスターではなく、低コンピューティングのDatabricksクラスターで、同じコストでより多くのデータを取り込む

続きは資料ダウンロードでご覧いただけます

ページトップへ