Alibaba がエンドツーエンドの PPML ソリューションを構築

Alibaba Cloud とインテルは、BigDL PPML と Alibaba Cloud Data Trust を相乗化し、AI とビッグデータの E2E プライバシーを保護します。

概要:

  • Alibaba Cloud は、クラウド・コンピューティングと人工知能のグローバルリーダーです。

  • Alibaba Cloud とインテルは連携して、インテル® ソフトウェア・ガード・エクステンションズ (インテル® SGX) を使用して、企業が AI およびビッグデータ・アプリケーションのエンドツーエンドのプライバシーをより適切に保護できるよう支援します。

author-image

投稿者:

概要

ビッグデータや人工知能 (AI) などの革新的なデジタル・テクノロジーは、世界を急速に再構築しています。人々の生活により多くの可能性をもたらすことで、社会的、経済的開発モデルを変えているのです。データが最も重要な資産のひとつになったことを知り、データ中心のトレンドをつかむ企業が増えています。しかし一方で、そのデータ要素は、組織内外のストレージ、プロセシング、流通のプロセスにおいて、深刻なセキュリティー・リスクにも直面しています。したがって、データ・セキュリティーの保護は、今やデジタル・トランスフォーメーションの成否を決める最も重要な要因のひとつとなっています。

インテル® ソフトウェア・ガード・エクステンションズ (インテル® SGX) に基づいて、インテルは、エンドツーエンドのビッグデータと AI パイプラインを保護するため、BigDL PPML (プライバシー保護マシンラーニング) を構築しました。インテルは、Alibaba Cloud DataTrust とのコラボレーションにより、エンドツーエンドのワークフローと関連するビジネスシナリオにおいて PPML ソリューションを検証し、BigDL PPML に基づくエンドツーエンドのプライバシー保護アプリケーションを迅速に構築するためのベストプラクティスを実証しました。

背景: セキュリティー・リスクが課題となるビッグデータと AI のデータ融合

デジタル・トランスフォーメーションは、データ価値の重要性を強調し、データフローを高速化する一方で、複数の当事者間の複雑なデータストレージ、流通、プロセシングを実現します。特に AI やビッグデータ・アプリケーションで必要とされるすべてのデータを単一の組織で準備するのは難しいことです。そのため、複数の当事者が協力して、データ・コンバージェンスを実現し活用する必要があります。金融 AI アルゴリズムのトレーニングを例にとると、個々の金融機関が独自のデータではニーズを満たすことはできません。この場合、さまざまな当事者が協力して AI モデルを作成、維持し、最終的にはデータを共有できます。

しかし、機関や業界を超えたデータ融合、分析、モデリングのニーズが高まった結果、データ・セキュリティーのリスクも飛躍的に高まっています。一方で、データは容易にコピーされ拡散される可能性があるため、従来のセキュリティー・モデルでは、一度共有されたデータを追跡することは困難です。一方、継続的なデータフローは、責任の分担が不明確、権限制御が困難、データの追跡が困難といった問題を引き起こします。そのため、データ・セキュリティーと信頼性が最優先されます。

しかし、AI とビッグデータ・アプリケーションに対する従来のセキュリティー・ソリューションは、しばしば以下の課題に直面します。

 

  • 共同分析とモデリングには、頻繁なデータ共有とコンバージェンスが必要ですが、従来のデータ・セキュリティー・ソリューションは、使用中のデータではなく、保存時および輸送中のデータを保護するよう設計されています。その結果、一部のセキュリティーの脅威がセキュリティー防御線を突破し、データ漏洩などのインシデントを引き起こす可能性があります。
  • AI とビッグデータ・アプリケーションには、データ入力、データ分析、マシンラーニング、ディープラーニングなどの複数のプロセスが含まれます。これらのプロセスのいずれかに脆弱性があれば、データ漏洩を含む深刻な事態につながる可能性があります。そのため、エンドツーエンドのセキュリティーを確保することが極めて重要です。
  • AI やビッグデータに対する攻撃は、幅広い既知および未知のセキュリティー脅威や、さまざまな攻撃手法およびツールを包含しています。しかし、従来のソリューションは一般的にソフトウェア・レベルで動作しますが、ハードウェアの最下層を保護することはほとんどなく、ハードウェアの保護のさらなる向上を妨げています。
  • データ・セキュリティー対策は、比較的複雑な計算に頼ることが多く、一定のパフォーマンス低下やデータバンクの運用効率に悪影響を及ぼす可能性があります。

ソリューション: BigDL PPML に基づく Alibaba Cloud E2E PPML

企業が AI とビッグデータ・アプリケーションのエンドツーエンドのプライバシーをより適切に保護できるよう、Alibaba Cloud とインテルは協力して、BigDL PPML と Alibaba Cloud DataTrust を相乗化することで、エンドツーエンドのワークフローおよび関連するビジネスシナリオにおいて、Alibaba Cloud E2E PPML を検証しました。

図 1.BigDL PPML ソフトウェア・スタック。

BigDL PPML

インテルの統合オープンソース AI ソリューション・プラットフォームである BigDL は、データ・サイエンティストとデータエンジニアが、エンドツーエンドの分散型 AI アプリケーションを容易に構築できるようにします。BigDL は、インテル® SGX 、インテルの信頼できる実行環境 (TEE) を使用し、他のハードウェアとソフトウェアのセキュリティー対策と統合することで、分散 PPML プラットフォームを構築し、エンドツーエンドの分散 AI パイプライン (データ取り込み、データ分析などからマシンラーニングやディープラーニングまで)を保護します。

インテル® SGX は、BigDL PPML の重要な基盤テクノロジーとして、システムのオペレーティング・システム (OS) と仮想マシン (VM) ソフトウェア・レイヤーをバイパスし、これらの攻撃の多くに対して重要な追加防御を提供します。データ・セキュリティーを増強して、より機密性の高いコンピューティングのニーズに対応します。インテル® SGX は、特定のアプリケーション・コードとメモリー内のデータを分離するハードウェア・ベースのメモリー暗号化を実現します。インテル® SGX は、ユーザーレベルのコードをエンクレーブと呼ばれるメモリーのプライベート領域に割り当てることで、高い特権レベルで処理が実行されるのを防ぐように設計されています。
 

図 2。インテル® SGX は、ハードウェアの最下層で保護します。

インテル® SGX は、十分に検証され、広く導入されているハードウェア支援型データセンター向けの Trusted Execution Environment (TEE) であり、システム内の攻撃対象領域を最小限に抑えています。インテル® SGX の認証メカニズムは、ソフトウェア・ベースの攻撃に対する防御に役立つだけでなく、アプリケーションとハードウェアが侵害されていないこと、およびプロセッサーに最新のセキュリティー・アップデートが適用されていることをユーザーが確認するのにも役立ちます。
開発者は、BigDL PPML プラットフォームを使用して、次のことができます。

 

  • 暗号化されたデータを用いて、標準的な分散 AI アプリケーション (ビッグデータ分析、マシンラーニング、ディープラーニングなど) を開発し、実行します。
  • インテル® SGX などのハードウェア・ベースのセキュリティー・テクノロジーを使用して、コンピューティング・プロセスと対応するメモリーデータを保護し、
  • インテル® SGX ハードウェアを使用した K8 環境における信頼できるクラスターの作成と認証、鍵管理システム (KMS) を介した分散データの暗号化と復号化機能の提供、インテル® SGX、暗号化と復号化、TLS、セキュリティー認証などのテクノロジーに基づく安全な分散コンピューティングとデータ通信の実現など、AI アプリケーションにエンドツーエンドのセキュリティーとプライバシー保護を提供します。

Alibaba Cloud DataTrust

Alibaba Cloud DataTrust は、TEE、安全なマルチパーティー・コンピューティング (MPC)、連合学習 (FL)、差分プライバシー (DP) など、プライバシー強化テクニックに基づく、業界をリードするプライバシー強化コンピューティング・プラットフォームです。データ価値の安全なフローを実現し、安全なデータのための適切で使いやすく、可用性の高い製品を業界に提供することに尽力しています。

図 3。Alibaba Cloud DataTrust のアーキテクチャー。

インテル® SGX 上に構築された Alibaba Cloud DataTrust は、MPC や FL などのテクニックを採用し、Alibaba Cloud データセンターの豊富なアプリケーション・シナリオを活用することで、データ・セキュリティーを確保しながら、複数グループのデータによる共同分析、トレーニング、予測を実行し、企業にデータ・サービス・ネイティブ・ソリューションを提供し、データの安全な流通とビジネスの成長を後押しします。

エンドツーエンド・ソリューションのワークフロー

BigDL PPML は、プライバシー・コンピューティングのコア機能に基づいて、認証サービス、鍵管理サービス、Kubernetes ベースの安全なコンテナ展開など、エンドツーエンドのプライバシー保護コンピューティング・ワークフローのこれまで以上のコンポーネントを統合します。

図 4. BigDL PPML に基づくエンドツーエンドの安全なコンピューティング・ワークフロー。

上記の BigDL PPML に基づくエンドツーエンドの安全なコンピューティング・ワークフローにおいて、各プロセスの機能を次のように説明しています。

図 5. BigDL PPML に基づくエンドツーエンドの安全なコンピューティング・ワークフローの機能。

BigDL PPMLソリューションには、上記のワークフロー・スキームが統合されています。Apache Spark、Spark SQL、マシンラーニング、ディープラーニングをサポートするインテル® SGX ベースのトラステッド・コンピューティング・コア・コンポーネント、認証サービスの抽象化されたクライアント API、鍵管理サービスの抽象化されたクライアント API、暗号化されたデータ送信とストレージ、カスタマイズされた K8 コンテナのイメージ。

上記の事前構成済みのワークフローを使用することで、開発者はビジネスロジックの開発に注力し、BigDL PPML を使用してアプリケーションのエンドツーエンドのセキュリティーとプライバシーを確保できます。ユーザーは、プライベート・コンピューティング・アプリケーションの開発効率を大幅に改善し、プライベート・コンピューティング・ソリューションにかかる時間を大幅に短縮できます。

アプリケーション実践

Alibaba Cloud DataTrust は、Spark SQL インスタンスを実行し、BigDL PPML ソリューションを検証します。基本手順は以下のとおりです。

1.Alibaba Cloud で安全な ECS インスタンスを作成

図 5 に示すように、暗号化されたメモリーで g7t インスタンスを作成します。作成後、以下のリストでインスタンスの仕様を確認します。

図6.ECS インスタンス仕様。

2.BigDL PPML の運用環境を準備

まず、Kubernetes クラスター、インテル® SGX プラグイン、NFS サービスを展開し、BigDL PPML の Docker イメージを取得し、セキュリティー・キーとパスワードを生成します。次に、RABC 構成と Kubernetes シークレット生成など、Kubernetes セキュリティー構成を実行します。最後に、BigDL PPML クライアント・コンテナを起動します。

3.ECS 上で BigDL PPML を使用したユーザーサンプルを実行し、エンドツーエンドのセキュリティー保護をテスト

まず、BigDL PPML クライアント・コンテナを入力し、appID、appKey、KMS キーを生成し、KMS キーを使用して入力データを暗号化します。次に、spark-executor-template を構成します。Yaml と、暗号化されたデータと KMS キーを NFS パスに配置します。最後に、タスクを Kubernetes クラスターに送信し、サンプルプログラムを実行します。

上記の認証プロセスを通じて、Alibaba Cloud™ ECS g7t.32xlarge インスタンスで、業界ベンチマークの TPC-DS ベースのクエリを実行します。テスト構成は次のとおりです。

99 のクエリステートメントに費やされた時間の幾何平均を指標とすると、インテル® SGX に基づくBigDL PPML の実行時間は、インテル® SGX による保護がない場合の1.89 倍です。1

テストデータによると、インテル® SGXを有効にした後は一定のパフォーマンス低下が発生しますが、そのようなパフォーマンス低下は許容範囲内です。さらに、インテル® SGX がもたらすパフォーマンス低下は通常、従来のセキュリティー・ソリューションよりも大幅に低いため、データ・セキュリティーを保護しながらコンピューティング・リソースを節約できます。

表1.テスト構成。

メリット: データ価値の安全なフローを推進

BigDL PPML をベースとした Alibaba Cloud エンドツーエンド PPML ソリューションは、TEE のメリットを維持します。従来のデータ・セキュリティー・ソリューションと比較して、より高いレベルのセキュリティーとデータユーティリティーを提供し、パフォーマンス低下を抑えます。

このソリューションを活用することで、企業は、データ取り込み、データ分析、マシンラーニング、ディープラーニングなど、AI とビッグデータ・アプリケーションの複数の段階に対する保護機能を備えたエンドツーエンドのセキュリティー・ワークフローを構築し、セキュリティーの脅威を回避します。一方、このソリューションは、ハードウェアの最下層からより高度なデータ保護を可能にし、従来のセキュリティー・ソリューションでは防ぐのが難しかった攻撃を防御することで、重要なデータの漏洩リスクを低減します。

このソリューションにより、企業は安全なデータ融合サービスを提供します。共同分析、トレーニング、予測は、オリジナルデータを開示する代わりに、ロジックデータをアプリケーションにのみ使用することを許可され、シナリオベースのデータ融合における安全性のニーズを満たします。自律性、制御性、セキュリティといったビジネスニーズも満たすことができ、顧客に、安全な流通のための透明で制御可能な環境を提供することができます。また、永続的なデータ制御権を備えた管理インターフェイスへの容易なアクセスと退出を提供します。さらに、このソリューションは、最先端のセキュリティ・テクノロジーを駆使し、さまざまなビジネス・シーン向けにパッケージ化されているため、企業データの安全な流通に効果を発揮します。

以下は、このソリューションの典型的なアプリケーション・シナリオです。

 

  • グローバルで洗練された運用: 個々のプライバシーとデータ・セキュリティーの保護という前提のもと、ブランドオーナーは、リンクされたプラットフォームとサードパーティーからのすべてのドメインデータに基づいて、デジタルおよびインテリジェントな運用機能を構築し、コンシューマー、製品、マーケットプレースの複合体を最適化し、ビジネスの成長を促進します。
  • 共同インテリジェント・リスク・コントロール: 企業や機関は、独自の環境内にオリジナルデータを保持することで、プライバシーを強化するコンピューティング・テクノロジーを利用し、複数グループによるデータに対するリスク制御を実現し、リスク識別の効率を向上させ、健全なビジネスの成長を促進します。
  • 広告の推奨: コンシューマーのプライバシーの保護とファーストパーティーおよびセカンドパーティーのデータのセキュリティーを前提に、安全なデータに基づく共同モデリングを実装し、アルゴリズムの精度と広告効果を向上させ、持続可能で効率的なビジネス成長を促進します。

概要と展望

データ・セキュリティーとプライバシー保護に関する法律や規制の継続的な導入に伴い、顧客データのプライバシーを確保することは、企業にとってこれまで以上に重要な課題となっています。PPML を活用することで、組織は、処理および分析中の膨大な機密データのリスクを軽減しながら、パワフルな AI を探求し続けます。

インテル® SGX、BigDL、およびその他多くのセキュリティー・コンポーネントをベースとした BigDL® PPML ソリューションは、データ・セキュリティーとビッグデータおよび AI のパフォーマンスを確保するためのプラットフォームを構築しました。BigDL PPML ワークフローは、Alibaba Cloud とインテルが共同で検証しました。この協力により、BigDL PPMLを使用したエンドツーエンドのプライバシー保護アプリケーション開発に関するベスト・プラクティスが紹介され、これらのアプリケーションの開発を加速する BigDL PPML の重要な役割が実証されました。インテルと Alibaba Cloud は、この成果を推進し、エンドツーエンドのプライバシー保護をさらに革新し、実践することで、ユーザーがより安全なデータ融合を実現し、データ価値の獲得を加速できるよう支援します。

PDF をダウンロード ›