日本 IBM は、ビッグデータ処理に特化した統合プラットフォーム「IBM PureData System」へのラインアップの追加と拡張を発表した。

テキストや画像などの非構造データを扱う Hadoop 基盤「IBM PureData System for Hadoop H1001」と、Netezza テクノロジーを実装したハイパフォーマンスアナリティクス基盤のエントリーモデル「IBM PureData System for Analytics N2002-002」の販売を、新たに開始した。

IBM PureData System for Hadoop H1001 は、Hadoop 環境を迅速に構築できるエンタープライズ向け統合型システム。IBM x86 サーバー技術をベースに、18台のデータノードと冗長化された2台のマスターノード、10ギガビットと40ギガビットのイーサネットを組み合わせたネットワークから構成されている。データノードの内蔵ディスクは HDFS(Hadoop Distributed File System;Hadoop分散ファイルシステム)でフォーマットされており、また、データは圧縮して格納されるため、約 1PB を格納できる。数日で初期設定を完了できるよう統合された状態で出荷される。

また、IBM PureData System for Analytics N2002-002 は、Netezza 技術を採用した高速ビッグデータ分析向け統合型システム「IBM PureData System for Analytics」のエントリーモデルで、2013年2月から販売しているハイパフォーマンスモデルの小規模構成版。Netezza の特長である超並列処理のシステム設計はそのままに、データを処理するブレードやディスクの本数を抑えている。

「IBM PureSystems」ファミリーは、ハードウェア/ソフトウェアのコンポーネントを設計段階から統合、システム構築/運用に必要な知見を「パターン」として定義し、自動的に最適な資源を構築する「エキスパート インテグレーテッド システム」。クラウド、ビッグデータ、アナリティクスなどのシンプルなシステム基盤/環境を構築、運用できる。

そのなかでも、「IBM PureData System」は、ビッグデータ処理に特化して最適化された垂直統合型システム。高速データ入出力処理(データベース)向け「IBM PureData System for Transactions」、大容量データの高速分析処理(データウェアハウス)向け「IBM PureData System for Analytics」、業務処理データを蓄積データと照合するなど即時的分析処理向け「IBM PureData System for Operational Analytics」などがある。

今回新たに IBM PureData System に追加された IBM PureData System for Hadoop は、テキストや画像などの蓄積された大容量非構造化データを、並列分散処理したり解析したりする Hadoop 環境の構築・運用に特化した、統合型システム。Hadoop 環境構築に必要なハードウェア、ストレージ、ソフトウェアを統合、最適化した状態で出荷する。

Hadoop 基盤ソフトウェアには「IBM InfoSphere BigInsights」を採用、ANSI 準拠 SQL で Hadoop データを扱える BigSQL、プログラミングなしにデータを可視化/編集できるスプレッドシート形式の BigSheets、ハードウェアも含めて Web ブラウザ経由で監視/管理できる統合管理ツールなどを備えている。

さらに、IBM のデータウェアハウス システムとの連携ソリューション「IBM InfoSphere Optim EasyArchive for PureData Hadoop」によって、「IBM PureData System for Analytics」のデータをインポート/エクスポートできるようになる。