ホワイトペーパー紹介|アナリティクス対応データをより多く活用する
こんにちは!インサイトテクノロジーマーケティング本部です。
今やどの会社でも、コスト効果の高い方法で幅広い種類のデータを分析することが急務となっています。不正検出、お客様へのリアルタイムオファー、市場傾向や市場価格の分析、ソーシャルメディア監視などの分析ユースケースが、競争力を維持する有効な手段、そして真の意味で市場破壊者になるための唯一の手段になりつつあるからです。人工知能と機械学習 (AI/ML) アルゴリズムの使用や、ソース (モノのインターネット (IoT) センサーなど) からのデータの直接取得により、データの量、種類、速度がますます増える中、会社が立てるべき対策は何でしょうか。組織のデータ分析は、どうすれば高速化できるのでしょうか。
今回ご紹介させていただきたい「アナリティクス対応データをより多く活用する」のホワイトペーパーでは、これらの問題に対する回答および解決方法を提示しようとしています。ぜひご一読ください。(ホワイトペーパーのダウンロードはこちら)
はじめに
さて、多岐にわたる分析ニーズを満たすために必要なすべてのデータを統合しようとすると、余裕のない IT部門に過度な負担を掛けてしまうかもしれません。なぜなら、データソースごとに複雑な手動コーディングと手順が必要になり、本番環境で使用されているデータソースも停止しなければなりません。データアーキテクトやデータベース管理者 (DBA) は、既に苦心しながら会社全体にわたるレプリケーションの実行と追跡を効率化しようと取り組んでいます。会社の方策に伴って発生する数百、ときには数千もの統合タスクを効率的に管理することは適切なツールなしでは不可能かもしれません。
問題は、 従来のデータ統合ツールでは最新のデータ要件を扱えないということです。しかし、Qlik Replicate™ソリューションなら、最新のデータ要件も問題なく扱うことができます。その答えを少し見てみましょう。
最先端のデータ統合
Qlik Replicateは、すべての主要なソースおよびターゲットプラットフォームの間での高速なデータ移行を可能にすることで、お使いの環境をモダナイズします。さらに、単一の “Click to Load” (クリックだけでロード可能) インターフェイスにより、エンドツーエンドのレプリケーションプロセスを完全に自動化するのです。DBAとデータアーキテクトは、すぐれたQlikの変更データキャプチャ (CDC) 技術を使用して、一括ロードとリアルタイム更新を容易に設定、制御、監視できます。これにより、データベースの変更データを即座にターゲットにレプリケートすることが可能に。さらに、Qlik のゼロフットプリント CDC なら、本番環境への影響リスクも解消できます。
Qlik Replicateは、異種または同種両方の環境でのデータレプリケーションを促進し、ハイブリッドマルチプラットフォーム環境全体にわたってデータフローを制御します。Oracle、Microsoft SQL Server、IBM Db2 など、主要なトランザクショナル・データベースだけでなく、Microfocus Vertica、IBM Integrated Analytics System(旧Netezza)、Microsoft Synapse Analytics、Oracle Exadata、Teradata などの主要なアナリティクスプラットフォームとも統合します。さらに、Cloudera や Azure HDInsight などの Hadoop ディストリビューション、Apache Kafka などのストリーミングシステムさえもサポートします。
使いやすさと自動化機能
使いやすさの主な差別化要因は、“Click-2-Replicate” (クリックだけでレプリケーション可能な) ユーザーインターフェイスです。直感的に使えるため、使い方を習得するための時間は不要です。簡単に習得して素早く導入できます。もちろんDBA スキル、カスタムスクリプトの作成、コンサルタントも不要です。Qlik の “Click-2-Replicate” デザイナーは、Web ベースのインターフェイスとなります。ユーザーは、ソースとターゲットの間でデータベーススキーマのマッピングを構成したいときや、変換、フィルタリングを行いたいときなどに、どこからでもアクセスしてグラフィカルなタスクマップを利用できます。このデザイナーにより、テーブル選択パターンの作成、変換の構成、フィルターの定義を簡単かつ迅速に行えるようになります。
業界トップクラスの幅広いプラットフォームをサポート
業界のリーダー各社との緊密なパートナーシップにより、幅広い製品を統合しています。リレーショナルデータベース、データウェアハウス、データレイク、Hadoop、クラウド、メインフレームプラットフォームなど、データレプリケーション用のあらゆる主要なソースとターゲットをサポートしています。さらに、NoSQL ターゲットとして MongoDB もサポートしており、あらゆる主要なストリーミングプラットフォームに対して CDC をメッセージとして書き込むことができます。サポートされるソースおよびターゲットの詳細一覧が知りたい方は、ホワイトペーパーをダウンロードしてご覧ください。
機能とアーキテクチャ
このソリューションでは、マルチサーバー、マルチタスク、マルチスレッドのアーキテクチャにより、世界中に分散された数千ものサーバーやデータセンターに拡張できます。Qlik Replicate アーキテクチャは3つのドメインから成り立っています。ソース (データベースなど)、レプリケーションサーバー、ターゲット (データベース、データウェアハウス、データレイク、クラウドなど) です。主要なアーキテクチャは以下のとおりです。
- フルロードと CDC によるレプリケーション
- エージェントレスかつゼロフットプリント
- スケーラビリティと柔軟性
- Click-2-Replicateユーザーインターフェイス
- 統合された監視と制御
フルロードによるレプリケーション
完全なロードによるレプリケーションでは、Qlik Replicate はソースからすべてのテーブルを取得し、ターゲットにコピーを作成します。その後、ターゲットから要求されるメタデータを自動的に定義し、ソースからのデータをテーブルに入力します。
効率性を高めるために、データは 1つ以上のテーブルにロードされます。ソーステーブルは、フルロードのプロセス中の更新アクティビティに使用されますが、ソース側のアプリケーションを停止する必要はありません。テーブルのロードが開始されると、CDCプロセスが自動的にアクティブ化されます。ただし、変更はロードが完了するまでターゲットには適用されません。また、ロードの実行中は、ターゲットのデータに一貫性がない場合がありますが、完了した時点でデータは完全に一貫性と整合性を備えた状態になります。
とはいえ、必要であれば、ロードのプロセスを中断できます。再開すると、ソフトウェアは停止位置から処理を続けます。新しいテーブルは、既存のテーブルをリロードすることなく、既存のターゲットに追加できます。同様に、以前に入力済みのターゲットテーブル内の列について、リロードなしで追加または削除することができます。
スキーマまたはデータ定義言語のレプリケーション
Qlik Replicateは、ソーススキーマのメタデータ定義に基づき、ターゲットデータベースを自動的に生成します。新しいテーブルや列の追加、またはデータ型の変更など、そのスキーマに対する任意のデータ定義言語 (DDL) の変更は、動的にターゲットに複製できます。
増分レプリケーション (CDC)
QlikのCDC プロセスは、ソースデータまたはメタデータの更新を順次コピーし、ターゲットエンドポイントにリアルタイムで適用します。Qlik Replicate CDC なら、効率的かつ簡単、しかも高速に、大量のデータ変更をターゲットデータベースまたはクラウド環境に移すことができます。
では、Qlik ReplicateのCDCテクノロジーにどういった特徴と機能があるのでしょうか。また、エンタープライズデータ統合のインテリジェントな管理と制御がどうしたら実現できるのでしょうか。本ホワイトペーパーの残りの内容目次を以下でまとめておりますが、興味がある方はぜひこちらより資料をダウンロードしてください。
- 高度な CDC テクノロジー
- ゼロフットプリントソフトウェア
- 時間ベースのパーティション分割
- フィルタリングと圧縮
- テーブルや列に対する変更による自動適応
- ユニバーサルなストリーム生成
- 最適化されたクラウド転送
- セキュリティ機能
- エンタープライズデータ統合のインテリジェントな管理と制御
1. トランザクション CDC 2. バッチ CDC 3. データウェアハウスでの取り込みと結合 4. メッセージとしてコード化された CDC