機械学習

機械学習(ML)とは、ソフトウェア自身で入力データから適切なデータを出力するように学習する機能を持ったソフトウェアのことです。
画像認識や音声認識、自然言語処理、機械翻訳などに広く利用されています。
今日のAIの代表的技術と言っていいでしょう。
「学習」と名づけられているように、最初は白紙(無知)の状態のソフトウェアに大量の入力データを与えることでソフトウェアが賢く、つまり人間が期待するデータを出力するように成長することに特徴があります。
ソフトウェアを賢くさせる手法として一般的に次の3つがあげられます。

① 教師あり学習:人間が教師の役目を担います。はじめに人間が入力データとそれに対する正解の出力データを与え一人前に育てる方法です。
一番学習のイメージに近い方法と言えるでしょう。
② 教師なし学習:入力データに対する正解の出力データを与えない方法です。
統計解析の考え方に基づいて大量のデータを分類しグループを作成するソフトウェアなどが代表です。
(統計学ではクラスター分析や主成分分析と呼ぶ)
適切なグループ分けのためにはパラメータを調整する必要がありますが、教師あり学習のように、白紙から賢くなるまで育てるわけではないので厳密な意味では「学習」とは呼べないかも知れません。

③ 強化学習:教師あり学習と教師なし学習の中間に位置付く方法です。
教師あり学習が学習の過程で具体的に正解のデータを与えたの対して、強化学習は評価を最大化するようにソフトウェアを学習させる方法です。
言い換えれば、ソフトウェアが良い結果を出したときに褒めてやる方法です。
人の学習に予め答えを教えてもらって覚えていく方法と、褒められて覚える方法があるのと同様です。

データクレンジング名寄せを行う際、単純な表記ゆれは機械処理である程度補正することが可能です。
しかし、概ね半数以上のデータは単純な機械処理では捕捉ができないような表記のゆれ方をしており、機械的な対応だけでは十分な結果が得られないというのが今までの実態でした。
しかしながら、AIの進化により、今まで人の目を介して初めて捉えていたような事実を、オントロジー(概念)レベルで機械的に紐づけ、マッチングをさせていくような技術研究が各所で進んでいます。
これらのテクノロジーを使いこなすためには、機械にインプットする「教師データ」が必要になります。
この「教師データ」を構築し、学習方向を補正し、機械が判断する際の誤り率を減らす舵取りは、やはり人間の手を介さざるを得ません。

リアライズはこうした、AIをはじめとする最新技術に対するインプットデータの構築についても、ご支援をさせていただいています。


詳細は以下をご参照ください。

「3つの「リアライズ流」で、データクレンジングを徹底的に支援する」

「3つの『リアライズ流』で名寄せを徹底的に支援する」

「データマネジメントを成功させるポイント」