データプロファイリング

データプロファイリングとは、対象となるデータの主に品質面での特徴を明らかにする作業のことです。
新しいシステムにデータを移行するときや、データ分析データを使うときに元になるデータが使える状態にあるかどうかを把握するために実施する作業です。
元になるデータが使える状態であればそのまま使えばいいですし、使えない状態(誤りや不整合があるデータ)であれば、データを使う前にデータクレンジングを行わなければなりません。
あるいはあまりにも使えない状態であれば、そもそもデータ分析ができないかも知れません。
データプロファイリングは、そのような判断やデータクレンジングなどの事前準備を見積るために必要な作業です。
プロファイリングの仕方はデータの使途に応じて様々ですが、例えば新システムに取引先データを移行する場合などには、取引先の重複の排除が必要になるでしょう。
その場合、事前にデータプロファイリングをおこなってどの程度既存の取引先データに重複が存在するか把握します。
あるいは、売上データを用いてデータ分析をする場合、対象となる売上データに記載されている金額が適正な値になっているかをデータプロファイリングによって調査します。
このように、データプロファイリングでは、データの使途に合った調査項目を設定する必要があります。

データの利活用を行うとき、必ず「現在のデータ状態」の確認が必要となります。
時々、データを格納しているシステムの仕様書だけを見て、データの中身を理解した気になっているという話を聞きますが、実際のデータはシステム定義書通りに精緻に、例外なく存在することはありえません。
現場の運用に基づき様々なイレギュラー処理がなされていたり、当初定義した範囲を超えるような事象が発生し、暫定的な対応でデータ入力がなされていたりするのが現実です。
そのため、データプロファイリングを行い、「現在のデータ状態」を明らかにしていきます。

データプロファイリングによって明らかになった「現在のデータの状態」が、データを利活用を行う上で耐えられない品質であった場合は、最適なデータクレンジングの設計をします。
このデータ品質はお客様の利用目的によって、どの程度のデータ品質を維持するのが適切であるかは変わります。
例えば「複数のシステムを連携するためのデータ形式の統一」や、「全組織のデータを統合し、データドリブン経営を行う」といったように、データを活用して実現したい「本当の目的」を確認した上で、目的達成のためにはどのレベルにまで、データ品質を引き上げる必要があるか「ゴール地点」を定めます。

これら「現在のデータ状態」と「ゴール地点」とのギャップを把握した上で、目的達成のために必要なデータクレンジングを組み立てていきます。

さて、当社が行うデータクレンジング作業は、「半角/全角」「大文字/小文字」「法人格や住所表記の統一」といった基本クレンジングに加え、お客様独自のデータ項目や管理ルール、活用方法を踏まえた上で、個別的なデータクレンジングにも対応をすることで、高品質なアウトプットを提供することが可能です。

また、機械処理やツールだけでは対応しきれない“汚れたデータ”に対しては、目検を含めた“深いクレンジング”を行います。
カテゴリごとに、「どのレベルまでのクレンジングを行うか」を定義し、画一的な機械処理に留まらず、フリー入力テキストからの値切り出し、空欄の穴埋め・補完、正規表現への置き換えといった対応までを行います。
「ツール+人間の目」だからできる、データの意味を捉えた深いクレンジングを実施します。

詳細は以下をご参照ください。
「リアライズのこだわり」

「3つの「リアライズ流」で、データクレンジングを徹底的に支援する」

セミナー動画視聴「DXを加速度的に推進するデータマネジメントのあり方」