データスワンプ

データスワンプ(Data Swamp)とは、データの沼地(Swamp)という意味です。
これの対比語としてデータレイク(Data Lake:データの湖)があります。

沼には、いろんな魚が住んでいるかもしれませんが、水が濁っているため、どこにどんな魚がいるか全く見えません。
また、全く見えないため「魚が住んでいないんじゃないか」とも思い、魚を捕るのも諦めてしまいがちです。

その一方で、湖は、水が澄んでいるため、魚を見ることができ「おっ!魚がいるな。何とか捕まえてみよう」と思えます。
この沼と湖にいる魚を、データの例えとして使っているのが、データスワンプと、データレイクという言葉です。

つまり、どこにどんなデータがあるかわからず、欲しいデータを捉えることができない状態をデータスワンプと呼び、どこにどんなデータがあるかがはっきりわかり、欲しいデータを捉えることができる状態をデータレイクと呼びます。

なお、データレイク内にどんなデータがあるのかをはっきりさせるためには、データカタログが欠かせませんが、品質を維持できず、データスワンプになってしまう企業が多いのが実情です。 ​

2010年頃にデータレイクという概念が登場し、企業は膨大な量の多種多様なデータを格納することが可能になりました。
ビッグデータ時代の到来に伴い、企業が取り扱うデータも多様化する中で、データレイクは、あらゆる形式の構造化データ、非構造化データを蓄積することができ、データウェアハウスのような、事前のややこしい設計が不要であるという点で関心を引いています。
しかし、無目的にデータを集め続けていった結果、どんなデータが格納されているのか把握できなくなり、データレイクは“湖”どころか、データスワンプ、つまり“濁った沼”になってしまっているケースも少なくありません。

そうしたデータレイクの惨状を救うために誕生したのが、データカタログであると推察されます。

データカタログは、組織が大量のデータを検索して管理できるように設計された、メタデータマネジメントツールです。ただし、データカタログのツールを導入しても、合わせてメタデータは導入されません。
データカタログ構築成功のカギは、このメタデータをいかに効果的に作成、運用するかにあります。
組織における「全てのメタデータ」を収集すればよいというわけではなく、データカタログユーザのニーズ、目的を踏まえ、本当に必要なデータに絞り込み収集・管理を行っていくことがポイントとなります。

リアライズは以下の4点を重視して、お客様のデータカタログ構築を成功に導きます。
1、データカタログ利用ユーザーの特定
2、ユーザーのデータ活用目的の把握と要件の定義
3、メタモデルの定義と、データカタログツールの選定
4、データカタログ運用チームの設立


詳細は以下をご参照ください。
「3つの『リアライズ流』がデータガバナンスを徹底的に支援する」

関連ソリューション・サービス

関連ブログ