データ分析とは

生成されるデータはかつてない速度で増加していますが、貴社では収集したデータを最大限に活用できているでしょうか。

成功する組織を構築するには、データの深い理解が不可欠です。データ分析とは、生データを処理し、実際に行動に生かせる実用的な知識に変換することです。インテル® テクノロジーはデータ・パイプラインのあらゆる段階で機能し、どんな実用的な目的であれ、組織が簡単にデータを収集および分析できるように支援します。

どんな種類の企業や組織にとっても、データを実用性の高いインテリジェンスに変換できるかどうかは、苦難と繁栄の分岐点となります。情報の価値を最大限に高めるにはデータ分析が必要です。つまり、生データを分析して結論を出す処理を行わなければなりません。

ほぼ全ての組織が何らかのデータを分析していますが、最新の分析手法では前例のないレベルの理解と知見が得られます。データ主導で分析中心の文化が社内でどの程度進んでいるでしょうか。また、次のステップは何でしょうか。

その開始点がデータ・パイプラインです。

データ・パイプラインを理解する

よく発達したデータ分析手法の確立は、時間とコミットメントが必要な進化的プロセスです。次のステージに前進したい組織にとって、データ・パイプラインと、そのパイプラインを通るデータのライフサイクルを理解することは非常に重要です。

  • インジェスト: データの収集
    データ・パイプラインの最初の段階はインジェストです。この段階では、データをソースから収集し、保管先のシステムに移動します。データは継続的なストリームまたは連続的な個別のイベントとして収集できます。

    大部分の構造化されていないデータでは、このようなデータは IDC の推定で 80~90 パーセントを占めますが1、インジェストはそのデータのライフサイクルの始まりであり、終わりでもあります。このような「ダークデータ」と呼ばれる情報は、インジェストされても決して分析されず、組織全体で有効に活用されません。

    現在、最大規模の高度なデータ分析トレンドの一つがインジェスト段階で始まっています。このような場合、インジェスト処理をしながらストリーミング・データのリアルタイム分析が実行されます。これはエッジ分析と呼ばれ、低消費電力と高い演算処理性能の両立が必要となります。エッジ分析は、一般に工場の機器、街灯、農業用機器、その他のコネクテッド・デバイスなどから情報を収集するセンサーや IoT デバイスで行われます

  • 準備: データの処理
    データ・パイプラインの次の段階は、使用するデータを準備し、ユーザーとアプリケーションがアクセス可能なシステムに情報を保存することです。データの質を最大限に高めるには、データをクリーニングし、容易にアクセスしてクエリを実行できるような情報に変換する必要があります。

    通常、情報はデータベース内に準備および保存されます。多種多様な形式および目的のデータを理解および分析するために、さまざまな種類のデータベースが使用されています。SAP HANA* や Oracle DB* などの SQL* リレーショナル・データベース管理システムは、通常構造化されたデータセットを処理します。これには財務情報、資格情報の検証、注文追跡などが含まれます。一方で、構造化されていないデータ・ワークロードとリアルタイム分析は、Cassandra や HBase などの NoSQL* データベースを使用する可能性が高くなっています。

    この段階のデータ・パイプラインの最適化には、迅速なクエリ処理のために演算処理性能とメモリー性能、ならびにデータの管理が必要です。また、膨大な量のデータに対応できる拡張性も求められます。データは緊急性と有用性に応じて保存ならびに階層化することができるので、最も重要なデータは最高の速度でアクセスすることが可能になります。

    インテル® テクノロジーは、現在最もストレージ負荷およびメモリー負荷の厳しいデータベースの使用事例を支えています。インテル® Optane™ ソリッドステート・ドライブを搭載した Alibaba Cloud* は、各 POLARDB インスタンスに 100TB のストレージ容量を提供することが可能でした。

  • 分析: データモデリング
    次の段階のデータ・パイプラインでは、保存したデータを分析し、モデリング・アルゴリズムを作成します。データは SAP、Oracle、SAS などエンドツーエンドのプラットフォームで分析することも、Apache Spark* などのツールで大規模処理することも可能です。

    この段階のデータ・パイプラインの高速化とコスト削減は、競争上の優位性を得る上で極めて重要です。ライブラリーとツールキットを活用することで、開発時間を短縮し、コストを削減することが可能です。一方、ハードウェアとソフトウェアの最適化により、応答時間を改善しながらサーバーとデータセンターのコストを低く抑えることもできます。

    インメモリー分析のようなテクノロジーは、データ分析機能を強化し、分析に対する投資のコスト効率を高めることができます。インテルを採用したことで、化学関連会社 Evonik では SAP HANA* データテーブルの再起動が 17 倍高速化しました。2 

  • アクション: 意思決定
    データのインジェスト、準備、分析が完了したら、次はデータに基づいたアクションです。分析結果を伝える上で、データの可視化とレポート機能が役立ちます。

    今までは、分析結果を広範囲に適用可能なビジネス・インテリジェンスへと変換するために、データ・サイエンティストやアナリストによる解釈が必要でした。しかし企業は、分析に基づいた保守スタッフの派遣や室温の変更など、アクションを自動化するために AI を使用し始めました。

データ・パイプラインに関する詳細なリソースおよび組織が分析能力を進化させる方法については、インテルの e ブック「データからインサイトへ: データ・パイプラインを最大限に活用する」をご覧ください。

データ主導で分析中心の文化が社内でどの程度進んでいるでしょうか。また、次のステップは何でしょうか。

4 種類のデータ分析

データ分析は、記述的分析、診断的分析、予測的分析、処方的分析の 4 つの種類に分けられます。これらは分析の成熟度に沿ったステップを示し、ステップごとにデータ・パイプラインの「分析」から「アクション」までの段階が短縮されていきます。

  • 記述的分析
    記述的分析は、過去に起こったデータをまとめて可視化するために使用します。言い換えると、すでに起きたことを組織に知らせる分析です。
    最もシンプルな種類の分析である記述的分析は、昨年の販売額を分析しているチャートなどのような基本的なものの場合もあります。あらゆる分析努力は、しっかりとした記述的分析の基盤の上に成り立ちます。多くの企業は今でもダッシュボード、データの可視化、レポートツールなど、主にこの形式の分析に依存しています。

  • 診断的分析
    分析への取り組みが成熟するにつれ、組織は過去のデータについて難易度の高い疑問を持つようになります。診断的分析では、過去に何が起きたかだけでなく、物事がなぜ起こったのかについても考えます。診断的分析を実行するには、分析担当者が詳細なクエリを実施し、トレンドと原因の特定をする必要があります。
    診断的分析を使用すると、各変数間の新たな関係性が明らかになる場合があります。スポーツウェアの会社における米国中西部での売り上げ向上は、天候の安定と相関関係があるかもしれません。診断的分析では、データとパターンを対応させ、異常値または外れ値の説明を試みます。

  • 予測的分析
    最初の 2 種類の分析は過去のデータを分析するものでしたが、予測的分析と記述的分析は未来のデータに焦点を当てます。予測的分析では、過去に得たデータから特定されるトレンドと統計モデルをベースに、予測される結果を作成します。
    予測的分析の戦略を構築するには、最適化されたシミュレーションを作成するためのモデルの構築と検証が必要です。そうすることで、企業の意思決定者は最善の予測結果を得られるようになります。一般に、大規模なデータセットでモデルのトレーニングを実行するマシンラーニングを予測的分析に使用して、よりインテリジェントな予測を作成しています。

  • 処方的分析
    もう 1 種類の高度な分析は、処方的分析です。予測的分析をもとに最適なソリューションを提案する処方的分析で、真にデータ主導の意思決定への進化が完了します。
    処方的分析は、マシンラーニングによる分析とニューラル・ネットワークに大きく依存します。このようなワークロードは、ハイパフォーマンス・コンピューティングと大容量メモリーで実行されます。この種類の分析には、他の 3 種類の分析による確固とした基盤が必要であり、分析への取り組みに十分なリソースを割り当てられる、高度に進化した分析戦略を備えた企業のみが実行可能です。

データ分析の使用事例

インテル® テクノロジーは、現代の企業が分析を行う方法を変革していきます。多様な業界および全世界に広がる使用事例とともに、インテルは企業における業績とコスト効率の最適化を手助けしながら、継続的に分析を推進するために取り組んでいます。

  • 製造
    自動車メーカーにとって、品質管理はコストの削減と、人の生死に関わる安全性に直結します。Audi の自動化された工場において、分析担当者は溶接品質を確保するためにサンプリングを実施していました。インテルの産業用エッジ・インサイト・ソフトウェアにより構築したエッジでの予測的分析を用いることで、メーカーは全車両で全溶接部を自動チェックし、溶接完了時のセンサーの数値をもとに溶接の問題を予測することができます。

  • 医療
    AI が胸部 X 線画像を読影できるようにトレーニングすることで、迅速に診断結果を提供して患者と医療提供者を支援できます。インテル® Xeon® スケーラブル・プロセッサー・ファミリーを搭載したパワフルなニューラル・ネットワークにより、研究機関 SURF は AI トレーニング時間を 1 か月から 6 時間へと短縮し、精度の向上も実現しました。

  • 通信
    スマートフォンとモバイル・インターネットの発展により、前例のないほどモバイルデータが作成されています。顧客体験を向上させるため、通信会社 Bharati Airtel はインテル® Xeon® プロセッサーとインテル® SSD を搭載した高度なネットワーク分析を導入し、ネットワークの不具合を従来より迅速に検出して修正できるようになりました。

分析のためのインテル® テクノロジー

未来のソリューションを開発する企業を支援する、広範囲にわたるテクノロジーとパートナーのエコシステムとともに、インテルは世界中の企業における高度な分析を強化しています。データセンターからエッジまで、インテルは分析エコシステムのあらゆる側面で活躍し、最大限の価値とパフォーマンスを提供しています。

よくある質問

データ分析とは、生のデータからビジネスで活用可能な知見へと情報を変換するプロセスです。

ビッグデータ分析とは、非常に大規模なデータセットを使用して新たな関連性を明らかにし、膨大な量の情報をより的確に把握することです。

高度な分析とは、特定のテクノロジーや一連のテクノロジーを指す言葉ではありません。マシンラーニング、拡張分析、ニューラル・ネットワークなどの先進的なテクノロジーを活用する使用事例とソリューションの分類です。

過去のデータから何が起きたかを理解し、将来起きることを予測し、それに応じて行動計画を立てる上で役立つビジネス・インテリジェンスを導き出すために実施するのがデータ分析です。

データ・パイプラインの 4 つの段階とは、インジェスト、準備、分析、アクションです。

記述的分析と診断的分析はどちらも過去を対象として分析します。記述的分析では何が起きたのかという疑問に答え、診断的分析はどうして起きたのかを調べます。

過去を調べて何が起きたのかを明らかにするのが記述的分析で、他の全種類の分析の基盤となります。一方、処方的分析では、既存のデータの予測アルゴリズムに基づいて今後のアクションを提案します。

予測的分析と処方的分析は、どちらも将来に関する知見を導きます。予測的分析は予測される出来事に関して推測し、処方的分析ではそのような推測をもとに今後の行動を提案します。

今後生じる出来事を予測するために使用されているのが予測的分析です。予測的分析では、開発前に保守ニーズを特定したり、景気状況が今後売上に与える影響を評価したりすることができます。

関連コンテンツ

分析向けインテル® テクノロジーの詳細

データ分析

組織で信頼性の高い実践的なインサイトを得るために分析がどう役立つか、分析戦略をどのように進化できるかについて説明します。

分析を最大限に活用する

高度なデータ分析

よりスマートなビジネスには高度な分析が不可欠です。インテル® テクノロジーを利用し、データ主導型の市場で他社の一歩先を行く方法をご覧ください。

よりスマートな分析戦略を推進する

マシンラーニングによる分析

分析への取り組みを後押しするマシンラーニングと人工知能を活用すれば、今までより迅速に、深い知見を得ることができます。

可能性を最大限に引き出す

予測的分析

データを活用し、将来について実践的な予測を行うことで競争上の優位性を得ることができます。

予測的分析の詳細を見る

通知と免責条項
インテル® テクノロジーを使用するには、対応するハードウェア、ソフトウェア、またはサービスの有効化が必要となる場合があります。// 絶対的なセキュリティーを提供できる製品またはコンポーネントはありません。// コストと結果は異なることがあります。// インテルはサードパーティーによるデータの管理や監査を行っていません。正確さを評価するには、他のソースを参照する必要があります。

免責事項

1“What Your Data Isn’t Telling You: Dark Data Presents Problems And Opportunities For Big Businesses” (データが教えてくれない情報: 大規模ビジネスの問題点および機会となるダークデータ) Forbes 誌 2019年6月、forbes.com/sites/marymeehan/2019/06/04/what-your-data-isnt-telling-you-dark-data-presents-problems-and-opportunities-for-big-businesses/#3086fe21484e 
22018年5月30日現在における SAP BW edition for SAP HANA* Standard Application Benchmark バージョン 2 の SAP HANA* のシミュ―レーション・ワークロード。性能に関するテストに使用されるソフトウェアとワークロードは、性能がインテル® マイクロプロセッサー用に最適化されていることがあります。SYSmark* や MobileMark* などのパフォーマンス・テストは、特定のコンピューター・システム、コンポーネント、ソフトウェア、操作、機能に基づいて測定されています。これらの要因のいずれかが変更されると、結果が異なることがあります。結果はこれらの要因によって異なります。製品の購入を検討される場合は、他の製品と組み合わせた場合の本製品の性能など、ほかの情報や性能テストも参考にして、パフォーマンスを総合的に評価することをお勧めします。詳細については、http://www.intel.co.jp/benchmarks (英語) を参照してください。性能の測定結果は構成情報に記載された日付時点のテストに基づいています。また、現在公開中のすべてのアップデートが適用されているとは限りません。構成の詳細については、バックアップを参照してください。絶対的なセキュリティーを提供できる製品またはコンポーネントはありません。従来型 DRAM 搭載のベースライン構成: Lenovo ThinkSystem SR950* サーバー、インテル® Xeon® Platinum 8176M プロセッサー (28 コア、 165 ワット、 2.1GHz) x 8 基搭載。全メモリーは 16 GB TruDDR4* 2,666 MHz RDIMM x 48枚で構成、および SAP HANA* ストレージ用 ThinkSystem 2.5 型 PM1633a 3.84TB 容量 SAS 12GB ホットスワップ対応 SSD x 5台。オペレーティング・システムは、 SUSE* Linux* Enterprise Server 12* SP3 で、 6TB データセットの SAP HANA* 2.0 SPS 03 を使用。テーブル・プリロードを 10 回繰り返した後に終了したすべてのデータの平均起動時間: 50分。DRAM およびインテル® Optane® DC パーシステント・メモリーを組み合わせた新構成: CXL QQ89 AO プロセッサー (24 コア、165W、2.20GHz) x 4 基搭載のインテル Lightning Ridge SDP 。合計メモリーは 32GB DDR4 2666 MHz x 24 および 128GB AEP ES2 x 24、インテル® SSD DC S3710 シリーズ 800GB x 1、インテル® SSD DC P4600 シリーズ 2.0TB x 3、インテル® SSD DC シリーズ S4600 1.9TB x 3 の容量で構成されています。BIOS バージョン WW33’18 。オペレーティング・システムは、 SUSE* Linux* 4 Enterprise Server 15 で、1.3TB データセットの SAP HANA* 2.0 SPS 03 (SUSE から特定の PTF カーネルを適用) を使用します。最適化されたテーブルのプリロードの平均起動時間 (17 倍向上)。