ビッグデータインテグレーション Talend の日本法人は、Apache Hadoop でネイティブに稼働する統合基盤ソフトウェア最新版「Talend 5.5」を発表した。

Talend ソフトウェアは Hadoop ディストリビューションのすべてに最適化されており、最新版 Talend 5.5 は、Hadoop 上での処理性能を平均45%(Talend5.4との比較)向上したそうだ。

データ統合、データクレンジング、データマッピングなどを高速処理するので、数ギガバイトもある複雑なデータでも、Hadoop クラスタにストリーミング連携・解析できるようになる。

また、MapReduce や Pig に精通していない開発者でも、ビジュアル開発環境を使ったハイパフォーマンスでスケーラビリティの高い Hadoop コードを生成できる。

さらに、OSS モデルで開発されており、Hadoop などの最先端技術の OSS 開発コミュニティに積極的に参加しており、新しい技術に即座に対応できる。その一例として、Talend 5.5 では、大規模データのクラスタコンピューティングフレームワークである「Apache Spark」をサポートした製品を、いちはやく開発者サイトで公開している。

Talend 5.5 OSS 版は、同社 Web サイトから無償でダウンロードできる。商用製品は、国内13社の販売パートナー経由で販売する予定。また、Spark 用コンポーネント(試験版)を、Talendforge.org の Talend Exchange から無償でダウンロードできる。

Talend は、Hadoop 上でネイティブに稼働する拡張性の高いソフトウェアコードで、使いやすいビッグデータ統合ツールを提供するもの。Talend 5.5 では、製品ライン全体で性能が向上しており、その1例として、XML、EDI やJava オブジェクトなどの複雑なデータを扱えるように設計されたマッピングツール「Talend Data Mapper」があげられる。

データマッピングは、ヘルスケア業界における EDI や、FPML(Financial Product Markup Language)を使った銀行間での金融情報の伝達特に重要となる。「Talend Data Mapper」の性能向上で、数ギガバイトのドキュメントでも Hadoop クラスタにストリーミングできるようになった。

Apache Spark は、Mapper、Reducer、JOIN、GROUP BY、フィルタなどの任意の演算子によってアプリケーションを書けるようにするプログラミングモデル。この組み合わせにより、繰り返しの機械学習、ストリーミング、複雑なクエリ、バッチなど幅広い領域を表現するのが簡単になる。

また、演算子の各々が生成するデータを追跡し、 アプリケーションが確実にメモリ内にデータを保存できるようにする。

Spark の使いやすさは、ユーザーがたくさんの Map と Reduce 処理に縛られずにアプリケーションを構築できる、というプログラミングモデルから来ている。Spark の並列プログラムは逐次プログラムに非常によく似ていて、開発とレビューを簡単にできる。

Spark により、ユーザーは単一のアプリケーションでバッチ処理、インタラクティブ処理、ストリーミングジョブを簡単に組み合わせることができるので、Spark ジョブは Hadoop ジョブに比べて、2分の1から10分の1のコード量で、最大で100倍の速度で実行できるそうだ。