今回、ODBMS.ORG の編集長である Roberto V. Zicari 氏は、Couchbase の共同創設者である Chris Anderson 氏にインタビューを行った。

「Hadoop に欠けているパズルのピースは、リアルタイムの変更だ。Hadoop には強力な分析能力があるが、基本的にバッチ指向パラダイムだ」と Anderson 氏は語る。

Hadoop はどのように NoSQL データベースと関連するのか。NoSQL データストアの主なパフォーマンスボトルネックは何か。これらのトピックについて、Zicari 氏は Anderson 氏へのインタビューを試みた。

Q1:現在の技術水準では、Big Data を解析する手段は、Hadoop コネクタを使ったパラレルデータベースか NoSQL データストアだ。2つのシステム間での大量データ転送に起因するパフォーマンス問題はどうだろうか。コネクタを使用すると、遅延やデータサイロが発生し、TCO が増大するだろうか。

Hadoop パズルに欠けたピースは、リアルタイムの変更に関する問題だ。Hadoop には強力な分析機能があるが、基本的にバッチ指向パラダイムだ。Couchbase は、リアルタイムアプリケーション(あらゆるさまざまな妥協を伴う)用に設計されたが、クエリ―能力もあるので、変更がある都度、内部を見ることができる。

われわれは、Couchbase がバッチベースの Hadoop 分析を、連続的な処理効果を与えて、リアルタイム情報で拡張するのに使われているのを、興味深い応用だと見ている。

だから、ホットなデータは Couchbase に、RAM(HA の速いフェイルオーバー用の RAM にあるレプリカでさえ)に存在する。RAM に Hadoop データの複製を3つほしいとは思わないだろう。あまりにもきちがいじみている。しかし、ワーキングセットにとっては意味があるのだ。

そして、これはあなたが言及したデータ転送コスト問題も解決する。なぜなら、クールオフの際には、データを基本的に Couchbase から Hadoop に移動するからだ。パラレルストアをメンテナンスするよりはるかに簡単だ。なぜなら、ワーキングセットから出て通過するように、Couchbase から Hadoop にデータをコピーするだけだからだ。

このような問題に取り組んでいる者にとって、Sqoop コネクタがあり、サンフランシスコで9月21日に開催される「CouchConf」では、Cloudera とともにこれについて話す予定だ(編集部注:オリジナル記事の掲載は2012年9月19日)。

Q2:むしろ、統一/統合プラットフォーム(データストア+Hadoop)はよりよいソリューションではないのか?

統一されたクエリ言語と開発者体験(ワーキングセットにそれが戻ってきたときに、自動的にデータを Hadoop から Couchbase に引き戻すようなものは言うまでもない)があるほうがいいだろう。それは誰もが認めると思う。

われわれはそこに到達するだろうが、私が思うに、第一のインターフェイスはリアルタイムストアで、Hadoop レイヤはコモデティになるだろう。これが、今まさしく NoSQL を得るための競争がある理由だ。

インタビューの全文はこちら
Couchbase
【ODBMS の DB 業界ウオッチ】Hadoop と NoSQL
Couchbase