テキストマイニングとは? データマネジメント用語をわかりやすく解説
近年、多くの企業ではデータを軸にしたビジネス推進を行っています。
データを活用する上で、特に重要視されているのがデータ品質の向上と維持運用を行うデータマネジメントです。
この用語集では、データマネジメントやデータ活用に関する用語を解説しています。
また、データマネジメントの専門家として活動するNTTデータ バリュー・エンジニアが、データ活用のヒントもご紹介しています。
テキストマイニングとは
データマイニングが数値データを中心とした構造化データを対象に新たな知見を取り出す手法であるのに対し、テキストマイニングは文章のような非構造データを解析し新たな知見を取り出す手法です。
顧客のアンケートの解析結果を自社サービスの改善・向上に結び付けたり、SNSへの投稿から新商品を開発するなどの用途に用いられます。
データマイニングは構造化データを取り扱うため多少のデータの加工は必要とするものの、ほぼそのままのデータを使って統計解析することができます。
一方、テキストマイニングでは、解析できる状態にする前処理として自然言語処理が重要な役割を果たします。
例えばインプットになるテキストに対して形態素解析(自然言語処理のひとつ)を行い文章を単語に分解してはじめて統計処理ができる状態になります。
その後、分解した単語の出現頻度からアンケートの回答の傾向を分析したり、構文解析を行って単語間の関連を分析するなどを行います。
また、データマイニングが数値などの定量データを扱うのに対し、テキストマイニングでは主に「良い」「安い」などの定性データを取り扱うことも特徴です。
NTTデータ バリュー・エンジニアが考えるデータマネジメント
テキストマイニングに代表される非構造データの分析では、数値以外のデータを統計処理が可能な状態に加工するため、分析結果には分析者自身による解釈が含まれます。
このため、テキストマイニングを行なう際には、分析結果の確からしさを担保するために、関連する数値データの分析結果と対比するのが一般的です。
テキストマイニングを行なう分析者が、対比する数値データを適切に選択するためには、データの説明情報であるメタデータの整備が欠かせません。
また、メタデータを一元管理したデータカタログは、分析作業を効率化し、組織のデータ活用サイクルとリードタイムを飛躍的に高速化します。
データカタログの導入で注意すべき点は、ツールとしてデータカタログを導入しても、合わせてメタデータが導入されないところです。
データカタログツールの中にはメタデータを自動的に収集してくれるものもありますが、それは既に社内に存在しているものに限られます。つまり、現存しないメタデータは収集できません。
そうしたことから、データカタログ構築の成功のカギは、メタデータをいかに効果的に作成、運用するかにあります。
NTTデータ バリュー・エンジニアは以下の4点を重視して、お客様のデータカタログ構築を成功に導きます。
1.データカタログ利用ユーザーの特定
2.ユーザーのデータ活用目的の把握と要件の定義
3.メタモデルの定義と、データカタログツールの選定
4.データカタログ運用チームの設立
詳細は以下をご覧ください。
> 3つの『NTTデータ バリュー・エンジニア流』がデータガバナンスを徹底的に支援する メタデータやデータカタログなどによるデータの可視化から継続的なデータ活用環境の運用までをトータルにサポートします。 > セミナー動画視聴「データカタログ構築失敗の原因と回避策を解説!」 動画の続きはこちらからご覧ください。
|