データクオリティ

データクオリティとは、 直訳すれば「データの品質(クオリティ)のこと」です。
データの品質が下がれば、情報の品質も下がりますので、各企業においての情報の品質を左右すると言っても過言ではありません。
何をもって、品質が高いとするかは使い方によって変わりますが、抽象的に言えば「利用するために適した状態であること」が低くない状態と言えます。
具体的には、例えば、
○正確性:業務実体を正しく示しているか
○完全性:業務的な必須項目には、必ず値が入っているか
○一意性:同じ意味を示す物事が、複数記述されていないか
などがあります。
簡単に言えば、製造業で良く言われる「ムリ・ムラ・ムダ」がない状態です。 ​

リアライズでは、単なる作業としてのデータクレンジングではなく、お客様の利用目的や実際のデータ状態を確認した上で、最適なデータクレンジングの設計をします。

上述の通り、お客様の利用目的によって、どの程度の品質を維持するのが適切であるかは変わります。
例えば「整っていないデータの確認時間の削減による業務効率化」や、「データを活用した売上拡大」といったような「本当の目的」を確認した上で、目的達成のためにはどのレベルにまで、データ品質を引き上げる必要があるか「ゴール地点」を定めます。

加えて必ず「現在のデータ状態」を確認します。
実際のデータは、システム定義書通りに精緻に、例外なく存在することはありえません。
現場の運用に基づき様々なイレギュラー処理がなされていたり、当初定義した範囲を超えるような事象が発生し、暫定的な対応でデータ入力がなされていたりするのが現実です。
こうした「現在のデータ状態」と、「ゴール地点」とのギャップを把握した上で、目的達成のためにどのような手立てが必要かを組み立てていきます。

さらに、具体的なデータクレンジング作業においては、「半角/全角」「大文字/小文字」「法人格や住所表記の統一」といった基本クレンジングに加え、お客様独自のデータ項目や管理ルール、活用方法を踏まえた上で、個別的なデータクレンジングにも対応をすることで、高品質なアウトプットを提供することが可能です。

また、機械処理やツールだけでは対応しきれない“汚れたデータ”に対しては、目検を含めた“深いクレンジング”を行います。
カテゴリごとに、「どのレベルまでのクレンジングを行うか」を定義し、画一的な機械処理に留まらず、フリー入力テキストからの値切り出し、空欄の穴埋め・補完、正規表現への置き換えといった対応までを行います。
「ツール+人間の目」だからできる、データの意味を捉えた深いクレンジングを実施します。

詳細は以下をご参照ください。

「リアライズのこだわり」

「3つの「リアライズ流」で、データクレンジングを徹底的に支援する」

関連ブログ