Big Data Databases Explained

 

Big Data データベース とは?

貴重なビジネス上のインサイトをもたらすために、組織がいっそう Big Data に注目するに従い、過去 30 年の間に標準となっていた従来のリレーショナルデータベース管理システム (RDBMS) では、こうした新たなデータ要件に対処することができないことが明らかになりつつあります。その結果、さまざまな Big Data データベースの選択肢が現れました。テクノロジーが異なる一方で、それらはすべて RDBMS の限界を克服し、組織がデータから価値を抽出できるよう設計されています。

Big Data データベースの要件

Big Data に対応する新たなデータベースの選択肢が必要となる理由を理解するためには、大量、多様、急速という、Big Data を特徴付ける主な 3 つの特質の影響を理解することが重要です。

  • 大量:その名の通り、Big Data は一般に、ペタバイト、エクサバイト、果てはゼタバイトで測定するようなデータです。従来の RDBMS では、サーバーやストレージの容量を増やすことでスケールアウトします。こうしたシステムはコモディティハードウェアで動作するようには設計されておらず、また、複数のデータベースサーバー全体にデータを分散するために、非常に複雑なシャーディングのテクニックが必要とされるため、拡張に大変な費用を要し、継続が困難になる可能性があります。たとえば、Oracle RAC システムでは、ほんの 20 テラバイトのデータ (今日のかなり大きな組織のたった 1 日分のデータ取り込み量に相当する量) を保管するのに数百万のコストがかかる場合があります。対照的に、Big Data データベースは、低価格のコモディティハードウェアを使用することで、ほとんど手作業の介入なしに容量の追加/削減を迅速かつ簡単にするスケールアウト・アプローチで、拡張のコストと負荷を最小化します。
  • 多様:かつて、ほとんどのデータは RDBMS の融通の利かないデータモデルに合わせて構造化されていました。Big Data の高まりにより、構造化されていないデータ、つまりソーシャルメディアの投稿、画像、動画から、時系列 IoT データまでのすべてのデータは、構造化データよりも急速に拡大しています。RDBMS があらかじめ定義されたスキーマに合わない混成データに対応するには、面倒で複雑なワークアラウンド(応急措置)を介するしかありません。しかし Big Data データベースには、こうした問題がありません。あらゆる種類のデータが容易に保存され、さまざまな方法を使用してクエリされるように構築された、柔軟なデータストレージモデルを使用しているためです。
  • 急速:Big Data 時代において、スピードは非常に重要な要素です。大量の混成データが、リアルタイムで作り出され、それらがほぼリアルタイムで取得、保存、処理されることが期待されます。時系列 IoT データなどの情報では、これが取り分け重要になります。RDBMS には大量かつ多様な Big Data に対応する能力がないため、パフォーマンスで見劣りするばかりか、ダウンタイムが生じるおそれもあります。一方で Big Data データベースは、パフォーマンスや可用性を損ねることなく、あらゆる種類の厖大な収集データを獲得するという絶え間ない要求に対応できるように設計されています。

Big Data データベースの利点

Big Data を念頭に置いて設計されたシステムは、RDBMS で使用される SQL クエリ言語を必ずしも必要としないことから、多くの場合、NoSQL データベースと呼ばれます。NoSQL データベースには、さまざまなユースケースのために設計された多くの種類とブランドがあります。NoSQL データベース の主なカテゴリには、 ドキュメント、キー/​バリュー、グラフ、ビッグテーブル、時系列などがあります。各テクノロジーにはそれぞれのメリットがありますが、通例は次のような Big Data のユースケースで有用です。

  • スケーラビリティ:NoSQL データベースでは、従来の RDBMS の拡張に伴った極度に高い複雑性や破壊性、コストが排除されます。NoSQL では、迅速かつ効率的にいつでも容量が追加または削減されるため、企業は簡単にスケールアウトして、Big Data のイニシアチブを受け入れることができるようになります。
  • コスト効率:NoSQL では低価格のコモディティハードウェアを使用しているので、ペタバイトやエクサバイトの Big Data を収容するためにより大きな容量が必要となるに従い、RDMBS に対するコスト節約は、時間と共により顕著になっていきます。また、組織や企業に求められることは、必要となる前に大きな買い物をするよりも、現在の容量要件に合わせるために必要となる量のハードウェアをデプロイすることだけです。
  • 柔軟性:Web、モバイル、IoT アプリケーションのいずれを組織が開発している場合も、RDBMS の柔軟性に欠けるデータモデルは、進化を続ける Big Data アプリケーションの要件に適応する組織の能力を妨げるか、急激に減速させてしまいます。NoSQL により、開発者は特定のアプリケーションのユースケースに最もよく合うデータ型とクエリオプションを使用して、より早く、より俊敏な開発ができるようになります。
  • パフォーマンス:前述の通り、パフォーマンスを向上させると、極端な出費や、手動シャーディングのオーバーヘッドを招きます。一方で、コンピュータ処理リソースが NoSQL データベースに追加される場合は、信頼できる高速なユーザーエクスペリエンスの提供を組織が続けられるように、パフォーマンスが比例して増加します。
  • 高可用性: 典型的な RDBMS システムは、複雑で、単一障害点を作成しうるプライマリ/​セカンダリアーキテクチャを必要とします。「分散」 NoSQL システムのなかには、複数のリソース間でデータを自動的に分散するマスターレスアーキテクチャを使用することで、データベースが常に利用可能であること、そして Big Data アプリケーションの膨大な読み書きの要求に対応できることを保証するものもあります。

tier-1-line class=

RIAK KV は、Big Data の大きな需要を支えます。

Big Data アプリケーションの要件を満たしたい組織のために、Riak KV は、構造化されていないデータを保存するための、高いスケーラビリティ、高速なパフォーマンス、高可用性、パワフルなデータモデルを提供します。

Riak KV について読む

時系列と IOT データのための RIAK TS。

時系列データの高速な読み書きのために最適化された Riak TS は、IoT、デバイス、センサーデータの保存、照会、分析を必要とする組織のために、障害回復力、高いスケーラビリティ、シンプルな運用を提供します。 

Riak TS について読む