Mahout-introduction

提供:Dev Guides
移動先:案内検索

Mahout-はじめに

私たちは、情報が豊富にある日と年齢に住んでいます。 情報の過負荷は、小さなメールボックスの管理が困難になるほどの高さにまで拡大しました! 人気のあるWebサイト(Facebook、Twitter、Youtubeなど)の一部が毎日収集および管理しなければならないデータと記録の量を想像してください。 あまり知られていないWebサイトでも、大量の情報を大量に受け取ることは珍しくありません。

通常、データマイニングアルゴリズムを使用して、バルクデータを分析し、傾向を特定して結論を​​導き出します。 ただし、クラウド上に分散された複数のマシンで計算タスクが実行されない限り、非常に大きなデータセットを処理して結果を迅速に提供するのに十分なデータマイニングアルゴリズムはありません。

計算タスクを複数のセグメントに分割し、各セグメントを異なるマシンで実行できる新しいフレームワークができました。 Mahout は、通常バックグラウンドでHadoopインフラストラクチャと連動して実行され、大量のデータを管理するデータマイニングフレームワークです。

Apache Mahoutとは何ですか?

_mahout_は、象を主人として運転する人です。 この名前は、象をロゴとして使用するApache Hadoopとの密接な関係に由来しています。

*Hadoop* は、単純なプログラミングモデルを使用してコンピューターのクラスター全体の分散環境でビッグデータを保存および処理できるようにする、Apacheのオープンソースフレームワークです。

Apache Mahout は、スケーラブルな機械学習アルゴリズムの作成に主に使用されるオープンソースプロジェクトです。 以下のような一般的な機械学習技術を実装しています。

  • 勧告
  • 分類
  • クラスタリング

Apache Mahoutは、2008年にApacheのLuceneのサブプロジェクトとして始まりました。 2010年、MahoutはApacheのトップレベルプロジェクトになりました。

Mahoutの機能

Apache Mahoutの基本的な機能を以下にリストします。

  • MahoutのアルゴリズムはHadoopの上に記述されているため、分散環境でうまく機能します。 MahoutはApache Hadoopライブラリを使用して、クラウド内で効果的に拡張します。
  • Mahoutは、大量のデータに対してデータマイニングタスクを実行するための、すぐに使用できるフレームワークをコーダーに提供します。
  • Mahoutを使用すると、アプリケーションで大量のデータセットを効果的かつ迅速に分析できます。
  • k-means、fuzzy k-means、Canopy、Dirichlet、Mean-ShiftなどのMapReduce対応クラスタリング実装がいくつか含まれています。
  • 分散Naive BayesおよびComplementary Naive Bayes分類の実装をサポートします。
  • 進化的プログラミングのための分散フィットネス機能機能が付属しています。
  • マトリックスおよびベクトルライブラリが含まれています。

Mahoutのアプリケーション

  • Adobe、Facebook、LinkedIn、Foursquare、Twitter、Yahooなどの企業は、Mahoutを社内で使用しています。
  • Foursquareは、特定の地域で利用できる場所、食べ物、エンターテイメントを見つけるのに役立ちます。 Mahoutのレコメンダーエンジンを使用します。
  • Twitterは、ユーザーの興味のモデリングにMahoutを使用しています。
  • Yahoo! パターンマイニングにMahoutを使用します。