今回、ODBMS.ORG の編集長である Roberto V. Zicari 氏は、MapR 共同創業者で CEO の John Schroeder 氏にインタビューを行った。

Schroeder 氏は、アーリーステージのベンチャーである、革新的で破壊的な BI(Business Intelligence)、データベース管理、ストレージと仮想化技術を創出する企業を主導、大規模公開企業のような成功に導いた。

Schroeder 氏は、ファイルベースのアプリケーションや製品と簡単に統合できる、次世代 Hadoop ディストリビューションを生み出し、バッチ処理を超えた、リアルタイム、ビジネスクリティカル、セキュアアプリケーションを含む事例にまで拡大すべく、MapR を創設した。

「Hadoop インフラを稼働させるのに Stanford 出の博士をスタッフとして60名も抱えることができるような、Facebook 規模の IT 組織はわずかしかない。それ以外の組織は、Hadoop アプリケーションをもっと簡単に開発し、実環境にデプロイして稼働させることを必要としている」と Schroeder 氏は語る。

それでは、どうやったら Hadoop は簡単に使えるようになるか。次世代 Hadoop ディストリビューションとは何だろうか。これらのトピックについて、Zicari 氏は Schroeder 氏にインタビューを試みた。

以下はインタビューの一部を翻訳したものである。オリジナル記事の掲載日は2012年9月7日。

【ODBMS の DB 業界ウオッチ】次世代 Hadoop について MapR CEO にインタビュー
MapR トップページ

Q1:ビッグデータ分析プラットフォームとして、Apache Hadoop がもたらす価値はなんだろうか。

Apache Hadoop は、データ集中型分散アプリケーションを支援するソフトウェアフレームワークであり、ビッグデータを分析/処理する新しいプラットフォームをもたらす。データの爆発的な増加と新しい非構造化データの源が拡大するに伴い、データ量、多様性、速度を扱う、新しい手法が求められている。Hadoop は Google の MapReduce と Google File System(GFS)に関する論文に触発されたものだ。

Q2:それでは、拡張性は Apache Hadoop の唯一の利点なのだろうか。

いや、既存の DWH プラットフォームを使うことができないアプリケーションを構築できる。
マシンラーニングアルゴリズムやレコメンデーションエンジンの利用と同様、スケールの組合せで非構造化データを処理する能力は、新しいアプリケーションを構築する機会を創出する。

Q3:Hadoop の新規ユーザーや先進的な Hadoop ユーザーは、一般的にどのようなことを必要としているのだろうか。

Hadoop の先進的なユーザーは、コンテンツのリアルタイムストリームを支援するために、Hadoop のバッチ使用のはるか先を見ている。先進的なユーザーはまた、共有の Hadoop クラウドで生産と意思決定支援のワークロードのバランスをとるために、マルチテナントを必要としている。

一方、新規ユーザーにとっては、Hadoop はもっと簡単になる必要がある。Hadoop インフラを稼働させるのに Stanford 出の博士をスタッフとして60名も抱えることができるような、Facebook 規模の IT 組織はわずかしかない。それ以外の組織にとっては、Hadoop アプリケーションをもっと簡単に開発し、実環境にデプロイして稼働させる必要がある。

以下略。
(続きはこちら