「データクエリの際にスキームがないと、幾分柔軟になるという利点がある。古典的な RDBMS になれている人々には難しいかもしれないが」と、Iran Hutchinson 氏は語る。

ODBMS.ORG の編集長である Roberto V. Zicari 氏は、ビッグデータ技術の主要ベンダーに対する「ビッグデータ3つの質問」シリーズを開始した。最初のインタビューは、InterSystems のビッグデータ専門家である Iran Hutchinson 氏である。

以下はインタビューの翻訳である。オリジナルの全文はこちら

Q1:InterSystems の現在の「ビッグデータ」製品は何か。

InterSystems は、実際にビッグデータと呼ばれるずっと以前の1978年から、ビッグデータ事業に手を染めている。InterSystems は現在、旗艦製品である「Cache」に基づいた、統合データベース、統合分析プラットフォームを販売しており、さまざまな業界でビッグデータの突破口を開こうとしている。

Cache は1997年に出荷された、永続性を備えたインメモリ速度と、きわめて高速で、膨大な量のトランザクションデータを摂取する能力のある、拡張オブジェクトデータベースだ。

非常にスリムな設計のためにスケーラブルで、その効率的な多次元データ構造は、リレーショナルデータベースよりも少ないディスク空間でより速い SQL 性能を発揮する。また、最低限のメンテナンスとハードウェア要件で、洗練された分析、トランザクションデータに対するリアルタイムのクエリができる。

また「Ensemble」は、接続されたアプリケーションを統合開発するための、シームレスなプラットフォームである。中央処理ハブとして、あるいは、全国規模ネットワークのバックボーンとして使用できる。

この接続性を、分析、高可用性、セキュリティ、モバイルソリューションのための新しい技術と統合するのと同様、高性能 Cache データベースと統合することで、ばらばらな共通したもののないソリューションのパッチワークではなく、盤石の、統一されたビッグデータプラットフォームとなる。

われわれはまた、アクションのための戦略的な相互運用性と分析ができる、医療情報プラットフォーム「HealthShare」のような統合プラットフォームで構築された追加の技術も提供している。「TrakCare」統合医療情報システムは、同様に、この同じ統合フレームワーク上に構築されている。

Q2:InterSystems の現在の顧客はどこか、また、その製品は一般的にどのように使われているか。

われわれは絶えず技術を更新し、顧客がビッグデータをよりよく操作、摂取、分析できるようにしていく。われわれの顧客は、ヘルスケア、金融サービス、航空宇宙、公益事業など、性能や速度が非常に要求される産業界だ。

例えば Cache は、ヘルスケア業界では世界で最も広く使われているデータベースだ。スウェーデンやスコットランドなどでは、国民医療制度を Cache 上で稼働させている。世界中の一流の病院や健康システムもそうだ。金融業界では、1つのクライアントが全世界の株式取引の15%を、InterSystems のソフトウェアを通じて行っており、我々の製品はトップ10の銀行すべてが、我々の製品を使っている。

また同時に、ESA(the European Space Agency:欧州宇宙機関)が、10億の星の地図を作るのにもつかわれている。これまでの天文学で最大のデータ処理作業だ。(「1年後の Gaia Mission」を参照)

われわれの ACID (Atomicity Consistency Isolation Durability:原子性、一貫性、独立性、永続性)は設定可能で、この種の非常に規模の大きな、高性能、ビッグデータ処理アプリケーションを扱えるのである。

Q3:現在 InterSystems が取り組んでいる主要な新技術機能は何か。また、なぜそれに取り組んでいるのか。

われわれが注目している新しいパラダイムはいくつかあるが、分析に注目している。ひとたび、ビッグデータを全部吸収すると、分析したくなる。ビッグデータの3つのV、量(Volume)、速度(Velocity)、多様性(Variety)、が非常に重要になるところである。

データの多様性について語ろう。最も興味深いデータが非構造化、あるいはテキストベースのデータであるとき、最も人気のあるビッグデータ分析ソリューションは、構造化データ(行と列)であると仮定して開始する。

われわれの競合の多くはまだ非構造化データと格闘しているが、われわれはこの問題を1997年に Cache で解決した。以来ずっとよくなった。InterSystems の Cache は、垂直/水平の両方向で規模を拡張できるので、構造化/非構造化の両方用のスキーマレスとスキーマベース(SQL)のクエリオプションが可能になる。

結果として、われわれの現在の顧客は、彼らの全データで分析を実行している。それは、リアルタイムの、操作可能なデータで、1週間や1か月前以上に収集された、重役会向けのプレゼンテーション用データではない。

開発の多くが、スキーマレスデータストア、いわゆるドキュメントストア分野でなされた。それらは主にキーバリューストアだ。

データクエリの際にスキームがないと、幾分柔軟になるという利点がある。データクエリにもかかわらず、スキーマの欠如していると、古典的な RDBMS になれている人々には難しいかもしれないが。

いくつかの会社は、現在、アドオン、あるいはプラグインとして、スキーマレスデータストアに対する SQL クエリを提供している。InterSystems Cache は、ネイティブ SQL サポートによる高性能、キーバリューストアを提供している。

一般的に利用できる SQL ベースのソリューションは、ユーザーが何に興味があるかの事前定義を要求する。しかし、データを知らないとしたら、どうやって何に興味があるのか知るのか。

Cache 内に埋め込まれたのはユニークで強力なテキスト解析技術で、「iKnow」と呼ばれる。iKnow は、非構造化データをそのまま解析する。オントロジーや辞書を介してのいかなる事前定義も要求しない。それが英語であろうが、ドイツ語、フランス語であろうが、iKnow は自動的に概念を特定、重要性を理解する。そしてそれらをリアルタイムで、トランザクション速度で行うことができる。

iKnow で、非構造化データを超高速で解析できるようになるばかりでなく、同様にSQL を介して、「iFind」技術で効率的な Google 風のキーワード検索もできる。

そして、われわれは iKnow 技術と、DeepSee と呼ばれる別のリアルタイム OLAP 型技術を結合させたので、この解析能力をアプリケーションに埋め込むことが可能になった。複雑な概念を抽出し、構造化データと非構造化データの両方にキューブを構築できる。キーワード検索と概念発見を混ぜ合わせ、SQL クエリで表現でき、非構造化データについての概念とキーワードの両方を引っ張り出すことができる。

我々の現在の開発活動の多くは、より分散された環境用に iKnow 技術を拡張することに注力している。これによって人々は構造化/非構造化データセットをアップロードし、データセットにもっとも関連のある、一連の簡潔なグラフィカルな表示に足を踏み入れることを通して、それを柔軟でダイナミックな方法で、整理できるようになる。

グラフの中で使用する要素は、選択するとすぐに、これらの要素の、関連する構造化/非構造化情報のオブジェクトのマイクロコンテキストに飛び込むことができる。

別の方法では、ユーザーが考えていた使用に合わせ、サブセットにさらに分割することができる。この場合は、セットは、類似度などの拡張、典型的なパターン並列処理などの、古典的な NLP 戦略の数で最適化できる。

データはまた、既存のキューブあるいは新しいキューブで包むことができる、あるいは高度な予測モデルに供給することもできる。

われわれの目標は、分散されたスケーラブルな方法で、構造化データと非構造化データの両方に使える、安定したソリューションを顧客に提供することだ。われわれの努力の成果を、次の年次顧客会議「Global Summit 2014」で、紹介する予定だ。

われわれにはまた、われわれの解析技術を使い、非常に刺激的なソーシャルメディアアプリケーションを構築した、「Social Knowledge」と呼ばれるソフトウェアパートナーがいる。

Social Knowledge は、Twitter や Facebook でみんなが何を言っているかがリアルタイムで監視できるものだ。断わっておくが、これはキーワード検索ではない、概念分析だ。非常に大きな違いがある。新製品についての、あるいは最近の広告キャンペーンについての、消費者からの反応の大うねりがあるかどうか、見ることができる。

Social Knowledge はライブのフィードバックを返すことができるので、それについてすぐに行動できる。

要約すると、現在 InterSystems では、構造化データの解析用には、シェアードデータアーキテクチャ上で SQL と DeepSee を提供している。

そして、非構造化データ用には、iKnow セマンティック分析技術と iFind、iKnow 強化検索メカニズムを提供、テキスト内の情報を検出できるようにしている。

これらの機能は、私たちのシェアード ナッシング データ アーキテクチャの将来のバージョンで、テキスト分析のために有効になる。