データ分析とは

生成されるデータはかつてない速度で増加していますが、貴社では収集したデータを最大限に活用できているでしょうか。

データ分析の概要

  • データ分析では、生データを知識と知見へと変換し、より優れた意思決定に役立てることができます。

  • 分析の際にデータは、インジェスト (データの収集)、準備 (データの処理)、分析 (データのモデリング)、アクション (意思決定) という 4 段階のパイプラインで処理されます。

  • マシンラーニングと人工知能 (AI) を使用する高度な分析は、成熟した分析能力を持つ組織にとって新たな挑戦となります。

author-image

投稿者:

どんな種類の企業や組織にとっても、データを実用性の高いインテリジェンスに変換できるかどうかは、苦難と繁栄の分岐点となります。情報の価値を最大限に高めるにはデータ分析が必要です。つまり、生データを分析して結論を出す処理を行わなければなりません。

ほぼ全ての組織が何らかのデータを分析していますが、最新の分析手法では前例のないレベルの理解と知見が得られます。データ主導で分析中心の文化が社内でどの程度進んでいるでしょうか。また、次のステップは何でしょうか。

その開始点がデータ・パイプラインです。

データ・パイプラインを理解する

よく発達したデータ分析手法の確立は、時間とコミットメントが必要な進化的プロセスです。次のステージに前進したい組織にとって、データ・パイプラインと、そのパイプラインを通るデータのライフサイクルを理解することは非常に重要です。

  • インジェスト: データの収集
    データ・パイプラインの最初の段階はインジェストです。この段階では、データをソースから収集し、保管先のシステムに移動します。データは継続的なストリームまたは連続的な個別のイベントとして収集できます。

    大部分の構造化されていないデータでは、このようなデータは IDC の推定で 80~90 パーセントを占めますが1、インジェストはそのデータのライフサイクルの始まりであり、終わりでもあります。このような「ダークデータ」と呼ばれる情報は、インジェストされても決して分析されず、組織全体で有効に活用されません。

    現在、最大規模の高度なデータ分析トレンドの一つがインジェスト段階で始まっています。このような場合、インジェスト処理をしながらストリーミング・データのリアルタイム分析が実行されます。これはエッジ分析と呼ばれ、低消費電力と高い演算処理性能の両立が必要となります。エッジ分析は、一般に工場の機器、街灯、農業用機器、その他のコネクテッド・デバイスなどから情報を収集するセンサーや IoT デバイスで行われます。
     
  • 準備: データの処理
    データ・パイプラインの次の段階は、使用するデータを準備し、ユーザーとアプリケーションがアクセス可能なシステムに情報を保存することです。データの質を最大限に高めるには、データをクリーニングし、容易にアクセスしてクエリを実行できるような情報に変換する必要があります。

    通常、情報はデータベース内に準備および保存されます。多種多様な形式および目的のデータを理解および分析するために、さまざまな種類のデータベースが使用されています。SAP HANA* や Oracle DB* などの SQL* リレーショナル・データベース管理システムは、通常構造化されたデータセットを処理します。これには財務情報、資格情報の検証、注文追跡などが含まれます。一方で、構造化されていないデータ・ワークロードとリアルタイム分析は、Cassandra や HBase などの NoSQL* データベースを使用する可能性が高くなっています。

    この段階のデータ・パイプラインの最適化には、迅速なクエリ処理のために演算処理性能とメモリー性能、ならびにデータの管理が必要です。また、膨大な量のデータに対応できる拡張性も求められます。データは緊急性と有用性に応じて保存ならびに階層化することができるので、最も重要なデータは最高の速度でアクセスすることが可能になります。

    インテル® テクノロジーは、現在最もストレージ負荷およびメモリー負荷の厳しいデータベースの使用事例を支えています。インテル® Optane™ ソリッドステート・ドライブを搭載した Alibaba Cloud* は、各 POLARDB インスタンスに 100TB のストレージ容量を提供することが可能でした。
     
  • 分析: データモデリング
    次の段階のデータ・パイプラインでは、保存したデータを分析し、モデリング・アルゴリズムを作成します。データは SAP、Oracle、SAS などエンドツーエンドのプラットフォームで分析することも、Apache Spark* などのツールで大規模処理することも可能です。

    この段階のデータ・パイプラインの高速化とコスト削減は、競争上の優位性を得る上で極めて重要です。ライブラリーとツールキットを活用することで、開発時間を短縮し、コストを削減することが可能です。一方、ハードウェアとソフトウェアの最適化により、応答時間を改善しながらサーバーとデータセンターのコストを低く抑えることもできます。

    インメモリー分析のようなテクノロジーは、データ分析機能を強化し、分析に対する投資のコスト効率を高めることができます。インテルを採用したことで、化学関連会社 Evonik では SAP HANA* データテーブルの再起動が 17 倍高速化しました。2 
     
  • アクション: 意思決定
    データのインジェスト、準備、分析が完了したら、次はデータに基づいたアクションです。分析結果を伝える上で、データの可視化とレポート機能が役立ちます。

    今までは、分析結果を広範囲に適用可能なビジネス・インテリジェンスへと変換するために、データ・サイエンティストやアナリストによる解釈が必要でした。しかし企業は、分析に基づいた保守スタッフの派遣や室温の変更など、アクションを自動化するために AI を使用し始めました。

データ主導で分析中心の文化が社内でどの程度進んでいるでしょうか。また、次のステップは何でしょうか。

4 種類のデータ分析

データ分析は、記述的分析、診断的分析、予測的分析、処方的分析の 4 つの種類に分けられます。これらは分析の成熟度に沿ったステップを示し、ステップごとにデータ・パイプラインの「分析」から「アクション」までの段階が短縮されていきます。

  • 記述的分析
    記述的分析は、過去に起こったデータをまとめて可視化するために使用します。言い換えると、すでに起きたことを組織に知らせる分析です。

    最もシンプルな種類の分析である記述的分析は、昨年の販売額を分析しているチャートなどのような基本的なものの場合もあります。あらゆる分析努力は、しっかりとした記述的分析の基盤の上に成り立ちます。多くの企業は今でもダッシュボード、データの可視化、レポートツールなど、主にこの形式の分析に依存しています。
     
  • 診断的分析
    分析への取り組みが成熟するにつれ、組織は過去のデータについて難易度の高い疑問を持つようになります。診断的分析では、過去に何が起きたかだけでなく、物事がなぜ起こったのかについても考えます。診断的分析を実行するには、分析担当者が詳細なクエリを実施し、トレンドと原因の特定をする必要があります。

    診断的分析を使用すると、各変数間の新たな関係性が明らかになる場合があります。スポーツウェアの会社における米国中西部での売り上げ向上は、天候の安定と相関関係があるかもしれません。診断的分析では、データとパターンを対応させ、異常値または外れ値の説明を試みます。
     
  • 予測分析
    最初の 2 種類の分析は過去のデータを分析するものでしたが、予測的分析と記述的分析は未来のデータに焦点を当てます。予測的分析では、過去に得たデータから特定されるトレンドと統計モデルをベースに、予測される結果を作成します。

    予測的分析の戦略を構築するには、最適化されたシミュレーションを作成するためのモデルの構築と検証が必要です。そうすることで、企業の意思決定者は最善の予測結果を得られるようになります。一般に、大規模なデータセットでモデルのトレーニングを実行するマシンラーニングを予測的分析に使用して、よりインテリジェントな予測を作成しています。
     
  • 処方的分析
    もう 1 種類の高度な分析は、処方的分析です。予測的分析をもとに最適なソリューションを提案する処方的分析で、真にデータ主導の意思決定への進化が完了します。

    処方的分析は、マシンラーニングによる分析とニューラル・ネットワークに大きく依存します。このようなワークロードは、ハイパフォーマンス・コンピューティングと大容量メモリーで実行されます。この種類の分析には、他の 3 種類の分析による確固とした基盤が必要であり、分析への取り組みに十分なリソースを割り当てられる、高度に進化した分析戦略を備えた企業のみが実行可能です。

データ分析の使用事例

インテル® テクノロジーは、現代の企業が分析を行う方法を変革していきます。多様な業界および全世界に広がるユースケースとともに、インテルは企業における業績とコスト効率の最適化を手助けしながら、継続的に分析を推進するために取り組んでいます。

  • 製造
    自動車メーカーにとって、品質管理はコストの削減と、人の生死に関わる安全性に直結します。Audi の自動化された工場において、分析担当者は溶接品質を確保するためにサンプリングを実施していました。インテルの産業用エッジ・インサイト・ソフトウェアにより構築したエッジでの予測的分析を用いることで、メーカーは全車両で全溶接部を自動チェックし、溶接完了時のセンサーの数値をもとに溶接の問題を予測することができます。

  • ヘルスケア
    AI が胸部 X 線画像を読影できるようにトレーニングすることで、迅速に診断結果を提供して患者と医療提供者を支援できます。インテル® Xeon® スケーラブル・プロセッサー・ファミリーを搭載したパワフルなニューラル・ネットワークにより、研究機関 SURF は AI トレーニング時間を 1 か月から 6 時間へと短縮し、精度の向上も実現しました。

  • 通信
    スマートフォンとモバイル・インターネットの発展により、前例のないほどモバイルデータが作成されています。顧客体験を向上させるため、通信会社 Bharati Airtel はインテル® Xeon® プロセッサーとインテル® SSD を搭載した高度なネットワーク分析を導入し、ネットワークの不具合を従来より迅速に検出して修正できるようになりました。

分析のためのインテル® テクノロジー

未来のソリューションを開発する企業を支援する、広範囲にわたるテクノロジーとパートナーのエコシステムとともに、インテルは世界中の企業における高度な分析を強化しています。データセンターからエッジまで、インテルは分析エコシステムのあらゆる側面で活躍し、最大限の価値とパフォーマンスを提供しています。

よくある質問

データ分析とは、生のデータからビジネスで活用可能な知見へと情報を変換するプロセスです。

ビッグデータ分析とは、非常に大規模なデータセットを使用して新たな関連性を明らかにし、膨大な量の情報をより的確に把握することです。

高度な分析とは、特定のテクノロジーや一連のテクノロジーを指す言葉ではありません。マシンラーニング、拡張分析、ニューラル・ネットワークなどの先進的なテクノロジーを活用する使用事例とソリューションの分類です。

過去のデータから何が起きたかを理解し、将来起きることを予測し、それに応じて行動計画を立てる上で役立つビジネス・インテリジェンスを導き出すために実施するのがデータ分析です。

データ・パイプラインの 4 つの段階とは、インジェスト、準備、分析、アクションです。

記述的分析と診断的分析はどちらも過去を対象として分析します。記述的分析では何が起きたのかという疑問に答え、診断的分析はどうして起きたのかを調べます。

過去を調べて何が起きたのかを明らかにするのが記述的分析で、他の全種類の分析の基盤となります。一方、処方的分析では、既存のデータの予測アルゴリズムに基づいて今後のアクションを提案します。

予測的分析と処方的分析は、どちらも将来に関する知見を導きます。予測的分析は予測される出来事に関して推測し、処方的分析ではそのような推測をもとに今後の行動を提案します。

今後生じる出来事を予測するために使用されているのが予測的分析です。予測的分析では、開発前に保守ニーズを特定したり、景気状況が今後売上に与える影響を評価したりすることができます。