DataOpsってなぜ重要なのか?
こんにちは!インサイトテクノロジーマーケティング本部です。
前回の「DataOpsって何」のブログではDataOpsの定義と背景について述べました。では、なぜDataOpsが多くの企業にとって必要になってきたのか、DataOpsが重要である理由について調べた結果を今回の記事で皆様と共有したいと思います。
「DataOps」が重要である理由
多くの企業は、データ駆動型の実現を目標としていますが、それには困難が伴います。さまざまなユーザー(データアナリスト、データサイエンティスト、開発者、IT運用者、事業部の幹部など)からの要件のバランスを取る必要があるからです。ときには相反する要件があることもあります(俊敏性と堅牢性、セキュリティと柔軟性など)。
データ駆動型を目指する企業が直面する大きな課題は以下3つ考えられます。
データ管理の課題
一つ目は、データ自体に関する課題です。つまり、データの管理とガバナンスを効率的に行って、必要なメリットを実現するための方法です。この課題は従来からのものですが、データ量の増加と、その生成ペースの拡大のため、課題がさらに複雑化しています。
データ管理といえば、セキュリティ、データ品質、分散データの管理やガバナンス、社内/社外データのアクセス、データパイプラインの信頼性などの課題が挙げられます。言うまでもなく、データセキュリティは、非常に重要であり続けます。また、企業が正確なデータに基づいて意思決定を行うためには、データ品質もとても大切です。さらに、データはますます、様々なデータプラットフォーム(リレーショナル、非リレーショナル、Apache Hadoop/Spark)や様々な場所(オンプレミス、クラウド)に分散するようになっているため、企業が利用できるデータを正確に把握することが、とても複雑になっています。
これらの要因は、それぞれが単独に存在しているわけではありません。複数の要因が絡み合った上でデータ管理が大きな課題となっています。
データの際限なき増加の課題
近年のデータの処理と分析の市場における重要な特徴は、データの増加です。より経済性に優れたデータストレージや、データ処理製品やサービスの拡大により、データの増加がさらに加速しています。
従来、企業は主にいくつかのリレーショナルデータベースプロバイダーに対応し、非リレーショナルデータベースを扱うことは限定的でしたが、今では、NoSQLとApache Hadoopの拡大により、多くの企業で、さまざまなデータプラットフォームに対応する必要が生じています。また、クラウドコンピューティングの浸透に伴って、簡単にリソース拡大ができることによって、いくら単価が安価であっても、組織全体ではデータ処理のためのコスト増が発生しており、大きな課題となりつつあります。
データプロビジョニングの課題
データの増大に伴い、データ管理環境のプロビジョニングの課題も増大します。アジャイル開発とDevOpsの実践により、企業はこれまでになく迅速に、新しいアプリケーションを開発して、環境をプロビジョニングできるようになりますが、一方で、それらのアプリケーションを支えるデータのプロビジョニングがこれまでのままでは、引き続き業務効率の向上の妨げとなります。データプロビジョニングプロセスに関わる担当者は、複数名存在している場合が一般的で、さらに複数の部署にまたがっている場合、新しいデータ環境のプロビジョニングには数日〜1週間以上かかってしまうケースが少なくありません。
また、社内と社外を含むデータの共有に関しても課題となります。社内外のユーザーと共有されるデータの保護が、多くの企業にとって懸念事項になっているのではないでしょうか。
これらの課題を対応するため、DataOpsが注目されてきました。では、DataOpsの採用によってどのように課題解決がされるでしょうか?次回のブログでは、そのあたりを説明しますので、ご期待ください!
DataOpsシリーズ
1回目:DataOpsって何?