非構造化データとは? データマネジメント用語をわかりやすく解説



近年、多くの企業ではデータを軸にしたビジネス推進を行っています。
データを活用する上で、特に重要視されているのがデータ品質の向上と維持運用を行うデータマネジメントです。
この用語集では、データマネジメントやデータ活用に関する用語を解説しています。
また、データマネジメントの専門家として活動するNTTデータ バリュー・エンジニアが、データ活用のヒントもご紹介しています。

非構造化データとは

非構造化データとは文章や画像・音声などを意味します。
コンピュータシステムで取り扱うデータ構造化データと非構造化データに大別できます。
「私は犬を飼う」は単なる文章ですから非構造化データに分類されます。これに対して

・主語:私
・目的語:犬
・述語:飼う

と記述した場合、文章を主語と目的語、述語に分解して記載するという体系の下で記載されているので構造化データに分類されます。
今日、コンピュータの適用範囲の拡大、Webで取り扱うデータの多様化から非構造化データをコンピュータで取り扱うことが求められています。
またそれに呼応してAI技術を用いた実用的な非構造化データを取り扱ったシステムが普及してきました。
例えば、Googleの画像検索機能やTwitterの投稿を解析して話題の傾向を分析するシステムなどが代表です。
構造化データの処理では、人間が予めデータの意味を体系立ててそこにデータを当てはめるのに対して、非構造化データの処理では、コンピュータ自身が与えられたデータを解析して意味を抽出します。
そのため、事務処理のような正確さが求められるアプリケーションではなく、多少の誤差が許容される、データの分析やWebのデータ検索などに主に用いられます。

NTTデータ バリュー・エンジニアが考えるデータマネジメント

2010年頃にデータレイクという概念が登場し、企業は膨大な量の多種多様なデータを格納することが可能になりました。
また、企業が取り扱うデータも多様化する中で、データレイクはあらゆる形式の構造化データ、非構造化データを蓄積することができ、データウェアハウスのような、事前のややこしい設計が不要であるという点で関心を引いています。

しかし、無目的にデータを集め続けていった結果、どんなデータが格納されているのか把握できなくなり、データレイクは“湖”どころか、データスワンプ、つまり“濁った沼”になってしまっているケースも少なくありません。
そうしたデータレイクの惨状を救うために誕生したのが、データカタログであると推察されます。

データカタログは、組織が大量のデータを検索して管理できるように設計された、メタデータマネジメントツールです。
ただし、データカタログのツールを導入しても、合わせてメタデータは導入されません。
データカタログ構築成功のカギは、このメタデータをいかに効果的に作成、運用するかにあります。
組織における「全てのメタデータ」を収集すればよいというわけではなく、データカタログユーザのニーズ、目的を踏まえ、本当に必要なデータに絞り込み収集・管理を行っていくことがポイントとなります。

NTTデータ バリュー・エンジニアは以下の4点を重視して、お客様のデータカタログ構築を成功に導きます。

1、データカタログ利用ユーザーの特定
2、ユーザーのデータ活用目的の把握と要件の定義
3、メタモデルの定義と、データカタログツールの選定
4、データカタログ運用チームの設立

 

詳細は以下をご覧ください。

 

 

 

>   3つの『NTTデータ バリュー・エンジニア流』がデータガバナンスを徹底的に支援する

メタデータやデータカタログなどによるデータの可視化から継続的なデータ活用環境の運用までをトータルにサポートします。

 

>   セミナー動画視聴「DXを加速度的に推進するデータマネジメントのあり方」
動画の続きはこちらからご覧ください。

 

 

 

 

 

用語集一覧に戻る

関連ブログ