Hadoop-big-data-overview

提供:Dev Guides
移動先:案内検索

Hadoop-ビッグデータの概要

'_「世界のデータの90%は過去数年で生成されました。」_

新しいテクノロジー、デバイス、ソーシャルネットワーキングサイトなどの通信手段の出現により、人類が生成するデータの量は毎年急速に増加しています。 当初から2003年までに生成されたデータ量は50億ギガバイトでした。 データをディスクの形で積み上げると、フットボール競技場全体を埋めることができます。 2011 では2日ごとに、 2013 では10分ごとに同じ量が作成されました。 この割合はまだ非常に大きくなっています。 生成されたこの情報はすべて意味のあるものであり、処理時に役立つ可能性がありますが、無視されています。

ビッグデータとは?

  • ビッグデータ*は、従来のコンピューティング技術では処理できない大きなデータセットのコレクションです。 それは単一の技術やツールではなく、さまざまなツール、技術、フレームワークを含む完全な主題になっています。

ビッグデータに含まれるもの

ビッグデータには、さまざまなデバイスやアプリケーションによって生成されたデータが含まれます。 以下は、ビッグデータの傘下にあるフィールドの一部です。

  • ブラックボックスデータ-ヘリコプター、飛行機、ジェットなどのコンポーネントです。 飛行乗務員の声、マイクとイヤホンの録音、および航空機の性能情報をキャプチャします。
  • ソーシャルメディアデータ-FacebookやTwitterなどのソーシャルメディアは、世界中の何百万人もの人々が投稿した情報と意見を保持しています。
  • 証券取引所データ-証券取引所データには、顧客が行ったさまざまな会社のシェアで行われた「購入」と「販売」の決定に関する情報が含まれています。
  • パワーグリッドデータ-パワーグリッドデータは、基地局に関して特定のノードによって消費される情報を保持します。
  • 輸送データ-輸送データには、車両のモデル、容量、距離、および可用性が含まれます。
  • 検索エンジンデータ-検索エンジンは、さまざまなデータベースから大量のデータを取得します。

ビッグデータ

したがって、ビッグデータには、膨大な量、高速、および拡張可能なさまざまなデータが含まれます。 その中のデータは3つのタイプになります。

  • 構造化データ-リレーショナルデータ。
  • 半構造化データ-XMLデータ。
  • 非構造化データ-ワード、PDF、テキスト、メディアログ。

ビッグデータの利点

  • Facebookなどのソーシャルネットワークに保存されている情報を使用して、マーケティング代理店はキャンペーン、プロモーション、およびその他の広告媒体への対応について学習しています。
  • ソーシャルメディアの情報(消費者の好みや製品の認識など)を使用して、製品会社や小売組織が生産を計画しています。
  • 病院は、患者の以前の病歴に関するデータを使用して、より優れた迅速なサービスを提供しています。

ビッグデータテクノロジー

ビッグデータテクノロジーは、より正確な分析を提供する上で重要であり、より具体的な意思決定につながり、運用効率の向上、コスト削減、ビジネスのリスク削減につながります。

ビッグデータの力を活用するには、大量の構造化および非構造化データをリアルタイムで管理および処理し、データのプライバシーとセキュリティを保護できるインフラストラクチャが必要です。

市場には、ビッグデータを処理するために、Amazon、IBM、Microsoftなどを含むさまざまなベンダーのさまざまなテクノロジーがあります。 ビッグデータを処理するテクノロジーを検討しながら、次の2つのクラスのテクノロジーを調べます-

運用上のビッグデータ

これには、データが主にキャプチャおよび保存されるリアルタイムの対話型ワークロードに運用機能を提供するMongoDBなどのシステムが含まれます。

NoSQL Big Dataシステムは、過去10年間に出現した新しいクラウドコンピューティングアーキテクチャを活用して、大規模な計算を安価で効率的に実行できるように設計されています。 これにより、運用上のビッグデータワークロードの管理がはるかに簡単になり、安価で、実装が高速になります。

一部のNoSQLシステムは、最小限のコーディングで、データサイエンティストや追加のインフラストラクチャを必要とせずに、リアルタイムデータに基づいてパターンと傾向に関する洞察を提供できます。

分析ビッグデータ

これらには、Massively Parallel Processing(MPP)データベースシステムやMapReduceなどのシステムが含まれており、ほとんどまたはすべてのデータに影響を与える可能性のある遡及的かつ複雑な分析のための分析機能を提供します。

MapReduceは、SQLが提供する機能を補完する新しいデータ分析方法と、単一サーバーから数千台のハイエンドおよびローエンドマシンにスケールアップできるMapReduceに基づくシステムを提供します。

これら2つのクラスのテクノロジーは補完的であり、頻繁に一緒に展開されます。

運用対 分析システム

Operational Analytical
Latency 1 ms - 100 ms 1 min - 100 min
Concurrency 1000 - 100,000 1 - 10
Access Pattern Writes and Reads Reads
Queries Selective Unselective
Data Scope Operational Retrospective
End User Customer Data Scientist
Technology NoSQL MapReduce, MPP Database

ビッグデータの課題

ビッグデータに関連する主要な課題は次のとおりです-

  • データのキャプチャ
  • キュレーション
  • ストレージ
  • 検索中
  • 共有する
  • 転送
  • 分析
  • プレゼンテーション

上記の課題を満たすために、組織は通常、エンタープライズサーバーの助けを借ります。