ホワイトペーパー紹介|Apache Kafkaを使用したリアルタイムのデータベースストリーミング
こんにちは!インサイトテクノロジーマーケティング本部です。
昨今、ビッグデータアナリティクスのためにApache Kafkaを導入する企業は、ますます増えています。こうした企業は、極めて短い待ち時間と高い拡張性を備えたストリーム処理を実現する分散プラットフォームであるApache Kafkaを使って、リアルタイムでデータを統合、処理、分析することができ、データからより多くの価値を引き出しています。また、データレイクのストリーミングの取り込み、複数のビッグデータエンドポイントを使用する複雑なメッセージキュー、マイクロサービスデータの共有、機械学習の前処理も可能になります。しかし、そこには1つ、優れたストリーミングアーキテクチャの鍵となる要素が欠けています。それを補完できるのは弊社がご提供するQlik Replicate™ソリューションです。
今回のブログでは、企業をデータストリーミングに向かわせる動機、アーキテクチャの主要コンポーネント、Qlik ReplicateがApache Kafkaのストリーミング環境で果たす役割などについて説明するホワイトペーパーをご紹介したいと思います。
Qlik Replicateによるトランザクションデータベースのストリーミング
Qlik Replicateを導入することで何が実現できるかというと、データベース発行の設定プロセスを自動化できるということです。担当チームは、ソリューションのドラッグ&ドロップインターフェイスを使用して、新しいターゲットエンドポイント(Confluent Kafkaベースのプラットフォームなど)を作成し、ブローカーサーバーを定義してから、Confluent環境で1つ以上のトピックを選択できます。このタスクは、全社規模のQlik Enterprise Managerを使って、数百もの他のデータフローとあわせて設計、実行、監視できます。また、スキーマやテーブルの名前の変更、プロデューサー定義の列の追加と削除、トピックストリームに発行されたレコードのフィルタリングも柔軟に行うことができます。
Qlik Replicateの変更データキャプチャ (CDC) 技術では、トランザクションログをリモートでスキャンすることでソースの更新を特定してレプリケートしますが、ソースの実稼働データベースへの負荷は最小限に抑えられます。行の挿入、更新、削除やスキーマの変更などのすべてが、Kafkaブローカーにストリーミングされるライブトランザクションストリームのレコードになります。
差分変更のみを取得するQlik Replicate CDCにより、データ転送の帯域幅要件が軽減されるので、これは、クラウドベースのストリーミングシステムに発行する際に特に役に立ちます。
Qlik Replicateソリューションを使って、ソースデータベースのトランザクションをKafkaのレコードストリームに発行することで、他とは異なるメリットを得られます。例えば、以下のような機能が実現できます。
- 1対多の発行
- 自動データ型マッピング
- メタデータ統合
- トランザクションの整合性
- カスタムメッセージのフォーマット設定
- 構築の柔軟性
Apache Kafkaに代わるソリューション
Qlik Replicateは、Apache Kafka 以外にもAmazon KinesisとAzure Event Hubに対応しています。これらのソリューションはどちらも有償のクラウドサービス(PaaS)ソリューションで、Kafkaに代わるソリューションとして、AWSおよび Microsoft Azureのユーザーの間でそれぞれ人気があります。Amazon Kinesisは、EMR、EC2、AWS Lambda、S3、RedshiftなどのAWSプラットフォームと統合され、一方、Azure Event Hub は、Blob StorageやAzure Data Lake Store (ADLS)などのAzureコンポーネント向けに最適化されています。呼び方こそ異なりますが、どちらのソリューションにも、レコード、プロデューサー、コンシューマー、トピックストリームといったKafka同様のコアコンポーネントが採用されています。
本資料では上記の機能の詳細に関する内容のほか、実際のストリーミング取り込みを行なった顧客事例も紹介しております。データストリーミングプロジェクトを加速し、ROIを迅速に実現したい課題をお持ちの方は、ぜひ下記ボタンより本資料をダウンロードしてご一読することをお勧めします!