機械学習とは? データマネジメント用語をわかりやすく解説



近年、多くの企業ではデータを軸にしたビジネス推進を行っています。
データを活用する上で、特に重要視されているのがデータ品質の向上と維持運用を行うデータマネジメントです。
この用語集では、データマネジメントやデータ活用に関する用語を解説しています。
また、データマネジメントの専門家として活動するNTTデータ バリュー・エンジニアが、データ活用のヒントもご紹介しています。

機械学習とは

機械学習(ML)とは、ソフトウェア自身で入力データから適切なデータを出力するように学習する機能を持ったソフトウェアのことです。
画像認識や音声認識、自然言語処理、機械翻訳などに広く利用されています。
今日のAIの代表的技術と言っていいでしょう。
「学習」と名づけられているように、最初は白紙(無知)の状態のソフトウェアに大量の入力データを与えることでソフトウェアが賢く、つまり人間が期待するデータを出力するように成長することに特徴があります。
ソフトウェアを賢くさせる手法として一般的に次の3つがあげられます。

① 教師あり学習:人間が教師の役目を担います。はじめに人間が入力データとそれに対する正解の出力データを与え一人前に育てる方法です。
一番学習のイメージに近い方法と言えるでしょう。
② 教師なし学習:入力データに対する正解の出力データを与えない方法です。
統計解析の考え方に基づいて大量のデータを分類しグループを作成するソフトウェアなどが代表です。
(統計学ではクラスター分析や主成分分析と呼ぶ)
適切なグループ分けのためにはパラメータを調整する必要がありますが、教師あり学習のように、白紙から賢くなるまで育てるわけではないので厳密な意味では「学習」とは呼べないかも知れません。

③ 強化学習:教師あり学習と教師なし学習の中間に位置付く方法です。
教師あり学習が学習の過程で具体的に正解のデータを与えたの対して、強化学習は評価を最大化するようにソフトウェアを学習させる方法です。
言い換えれば、ソフトウェアが良い結果を出したときに褒めてやる方法です。
人の学習に予め答えを教えてもらって覚えていく方法と、褒められて覚える方法があるのと同様です。

NTTデータ バリュー・エンジニアが考えるデータマネジメント

データクレンジング名寄せを行う際、単純な表記ゆれは機械処理である程度補正することが可能です。
しかし、概ね半数以上のデータは単純な機械処理では捕捉ができないような表記のゆれ方をしており、機械的な対応だけでは十分な結果が得られないというのが今までの実態でした。
しかしながら、AIの進化により、今まで人の目を介して初めて捉えていたような事実を、オントロジー(概念)レベルで機械的に紐づけ、マッチングをさせていくような技術研究が各所で進んでいます。
これらのテクノロジーを使いこなすためには、機械にインプットする「教師データ」が必要になります。
この「教師データ」を構築し、学習方向を補正し、機械が判断する際の誤り率を減らす舵取りは、やはり人間の手を介さざるを得ません。

NTTデータ バリュー・エンジニアはこうした、AIをはじめとする最新技術に対するインプットデータの構築についても、ご支援をさせていただいています。

 

 

詳細は以下をご覧ください。

 

 

 

>   NTTデータ バリュー・エンジニアのデータクレンジング

単なる作業としてではなく、お客様の利用目的や実際のデータ状態を確認した上で最適なデータクレンジングの設計をします。

 

>   NTTデータ バリュー・エンジニアの名寄せ

一見簡単そうに見える「名寄せ」ですが、やみくもに実施すると連携している別システムに影響が出たり、名寄せ後のデータ活用で品質の問題が出てきます。品質の良い名寄せのポイントを紹介しています。

 

>   データマネジメントを成功させるポイント

NTTデータ バリュー・エンジニアが考えるデータマネジメントを成功させる3つのポイントを紹介しています。

 

 

 

 

 

用語集一覧に戻る

関連ブログ