分析のための設計 (アーキテクチャー)

分析システムを構築する前に、IT 部門は以下の鍵となる問題について考慮する必要があります。

要点

  • データ処理の現場の近くにデータを保管することで、時間と転送コストを節約できます。

  • リアルタイム分析では、異なる需要が発生し、異なるツールが必要になります。

  • アクセス制御は、対象データの機密性と一致させなければなりません。

author-image

IT エグゼクティブは、データを合理化して分析する前に、データの移動距離を判断する必要があります。最も現実的な 2 つの選択肢には、それぞれ長所と短所があります。

一方、未加工のデータでシフトする場合は、分析速度が低下し、データレイクに必然的に不要なデータが保管されることになります。

EMC のセールス・グローバル・チーフ・テクノロジー・オフィサー ディスティングウィシュ・エンジニアのパトリシア・フロリッシ氏は、長所は短所に勝ると語ります。

「データを移動することなく分析できるような環境が理想的です」と彼女は言います。

このデータ・レイク・ソリューションでは、EMC は多種多様なソースから取得した複数のフォーマットの未加工データを保管します。このアプローチでは、アナリストは多くの情報に触れる機会が得られ、事前にデータをクリーンアップしたり、取捨選択した場合には得られない貴重なインサイトを発見できます。

さらにフロリッシ氏は、ビッグデータを利用する際は複数のデータレイクが必要になると補足しています。

メディア・コングロマリットの AOL もデータレイクを使用していると、AOL CIO のジェームズ・ラプレンヌ氏は言います。AOL は 1 日に数十億件ものトランザクションを処理するため、「膨大な量のデータをコピーする時間は無視できません」と彼は言います。データを元のフォーマットのまま、取得した場所からパブリック・クラウドに直接移動することで、社内ネットワークを介してデータをコピーするコストを省くことができます。

すべてのリッチデータを一カ所にまとめることで、会社全体で信頼できる唯一の情報源として確保するのが狙いです。

マイク・ボージャック氏 AOL シニア・テクノロジー・ディレクター

使用するデータベースの種類

データ量、フォーマット、レイテンシーなどの要素を考慮し、分析プロジェクトに適したデータベースを選択することが重要です。

インテルがデータベースの切り替えを行ったプロジェクトでは、「相関関係のないソース群から取得したデータを使った」高度なクエリーが鍵になったとサファ氏は言います。SQL データベースでクエリーを実行すると、完了までに 4 時間かかっていました。インメモリー・データベースでは、同じクエリーが 10 分で完了します。しかし、だからと言って、インメモリー・データベースがあらゆる用途に最適であるとは限らないとボージャック氏は言います。目前のタスクを検討する場合は、常にビジネス目標に立ち返る必要があります。

まずは、プロジェクトでパターンを求めているのか、ピンポイントの精度を求めているのか見極めるべきだとサファ氏は言います。

データを異なるフォーマットで保存する Hadoop* などの分散したデータベースは、トレンドの検出を主眼とするプロジェクトには有効だと彼は言います。この場合、不正確なデータポイントが多少あっても、結果にはさほど影響しません。

一方、「特定の材料を指定された時間に製造プロセスに供給できるかどうか判断する場合は、レイテンシーのない 100% の精度が必要になります」と彼は言います。

この場合、構造性や制御性に優れ、リアルタイムの結果が得られるように調整されたデータベースが必要になります。具体的なニーズに応じて、企業はインメモリー・データ処理フレームワークを選択したり、パフォーマンス重視の NoSQL データベースを選択します。多くの分析データベース・タイプは重複する機能を備えていますが、その機能は本質的に異なります。

データ分類は手間がかかりますが、重要な作業です。

AOL CIO、ジェームズ・ラプレンヌ氏

アクセスの制御方法

ビッグデータのセキュリティーを確保する際に、IT 部門は、不正アクセスの防止と適切なアクセスの許可というお決まりのトレードオフに直面します。

Forrester Research のバイス・プレジデント兼主席アナリストのブライアン・ホプキンス氏は、パスワードや多要素認証など、標準境界型認証と承認メカニズムによるアクセス制御を推奨しています。一方で、企業はデータを暗号化し、トークン化によってデータ共有を制限する必要もあると彼は言います。

データのセキュリティーを保つ方法としては、データの供給源であるシステムへのアクセス権限を保持したり、分析したデータへのアクセス権限を実際に分析した人物やチームだけに制限するといった方法もあります。

AOL はすべてのリッチデータを一元的なクラウドに配置する方針ですが、アクセス制御を複数のレベルで導入しています。

アナリストがデータの内容を手動で確認し、その機密性に応じてアクセスレベルを設定します。そのアクセスレベルを許可された人物のみがデータを閲覧できるように認証システムで制御します。

AOL では、認証システムのアクセス分類が適切かどうか検証するためにデータを常に確認しているとラプレンヌ氏は言います。「データ分類は手動プロセスです」とラプレンヌ氏は説明します。「手間がかかりますが、重要な作業です」

「アナリストのニーズを満たしつつ、データのセキュリティーに万全を期す。この 2 つの課題を両立させたいと考えています」とボージャック氏は言います。