バリデーションチェック

バリデーションチェックとは、妥当性を確認することです。
チェックを省いて単に「バリデーション」と言うこともあります。
様々な業界で使用される言葉なのでここではのバリデーションチェックについて説明します。

データの確認には次の種類があります。
データの存在有無:本来データがあるべき箇所にデータが存在しているか確認します。
例えば入力画面の必須入力項目が該当します。

データの形式チェック:入力されたデータに使用されている文字の種類、値の範囲、桁数などが適正か確認します。
例えば、入力画面のデータ項目欄に半角数字が指定されているにも関わらず半角英字や全角数字が入力されていれば不正なデータになります。

データの妥当性:複数の入力データの関連から妥当性を確認します。
関連チェックという呼び方もされます。
例えば、ショッピングサイトで代引きを指定しているにも関わらず支払回数を入力している場合は妥当なデータとは言えません。

バリデーションはデータ品質を良い状態に保つうえで最も重要な要素です。
また上の例では主に入力時点でのチェックを例に示しましたが、他にプログラム処理中のチェックやデータの出力時点でのチェックもあります。
しかし、源流で品質の高いデータを作成することが一番重要ですから、その意味ではデータの入力時点でのバリデーションに最も大事です。

AIを始めとした高度分析が可能なBIツールを導入しデータ分析を行っていても、元となるデータの品質が悪くては分析結果をビジネスに活かすことはできません。
データ品質を確認するためにも、バリデーションチェックは欠かせない工程となります。
リアライズでは数々のデータマネジメントプロジェクトの経験から蓄積したノウハウを基に無駄のないバリデーションチェックを行います。
また、より効率的にバリデーションチェックを行うためツールも活用、ツールの結果として取得した情報からデータの品質を確認していきます。

バリデーションチェックの結果からデータが登録される時の状況、複数データベースの連携時の状況、データ運用の状況等、お客様のデータに関わる実業務を推測します。 この結果と、お客様の「何の目的を叶えるために」「どの種類・量のデータを」「どれほどの品質で」揃えるかの水準とで、データ整備の方針・必要な工程を導きます。

下記に具体的なバリデーションチェックの一部を紹介します。
データの総数

・空白(ブランク)の量
→空白が多い場合は名寄せの条件として適当ではない。
→必須項目で空白が多い場合は、なぜ空白なのかデータ登録状況の確認が必要。

・重複データの状況
→規則性を見ることで、データの登録時の状況を探る

・値の最大、最小値の確認
→特定の範囲の値であるかどうか確認

ほとんどのお客様の場合、実際のデータはシステム定義書通りに精緻に存在することはありえません。
現場の運用に基づき様々なイレギュラー処理がなされていたり、当初定義した範囲を超えるような事象が発生し、暫定的な対応でデータ入力がなされていたりするのが現実です。
こうした「現在のデータ状態」と、「ゴール地点」とのギャップを把握した上で、目的達成のためにどのような手立てが必要かを組み立てていきます。
さらに、具体的なデータクレンジング作業においては、「半角/全角」「大文字/小文字」「法人格や住所表記の統一」といった基本クレンジングに加え、お客様独自のデータ項目や管理ルール、活用方法を踏まえた上で、個別的なデータクレンジングにも対応をすることで、高品質なアウトプットを提供することが可能です。
また、機械処理やツールだけでは対応しきれない“汚れたデータ”に対しては、目検を含めた“深いクレンジング”を行います。
カテゴリごとに、「どのレベルまでのクレンジングを行うか」を定義し、画一的な機械処理に留まらず、フリー入力テキストからの値切り出し、空欄の穴埋め・補完、正規表現への置き換えといった対応までを行います。
「ツール+人間の目」だからできる、データの意味を捉えた深いクレンジングを実施します。


詳細は以下をご参照ください。

「リアライズのこだわり」

「3つの『リアライズ流』で、データクレンジングを徹底的に支援する」

セミナー動画視聴「DXを加速度的に推進するデータマネジメントのあり方」