統計学や機械学習の「なんで?」

統計学や機械学習の「なんで?」を解決したいんです.

データサイエンティストの必要性

こんにちは,しゅうです.

最近,データサイエンティストの必要性について疑問を抱いてしまったので,考えたことなどをだらだらと書いていきたいと思います.

「それは違う」,「こういう考え方もあるよ」等々ありましたらコメントしていただけると嬉しいです.

 

データサイエンティストとは

まず,今,巷でよく言われる「データサイエンティスト」とは何かググってみると,SAS institute Japan(株)のホームページに書いてありました.

www.sas.com

具体的な職務が明確に決まっているわけではありませんが,大体,以下のような職務を担当することが多いようです.

ビッグデータの収集と解析のためのフォーマット変換

・データ主導型の手法による問題解決

プログラミング言語による作業

・統計情報の理解

・最新の分析手法の把握

ビッグデータからのビジネスにおける利益に寄与する傾向の特定

 

うーん,統計学だけでなく,コンピュータサイエンスやプログラミングなど,相当な専門知識を必要とする職業のようですね,,,.必要性に疑問を抱くまでもありません.

21世紀で最もセクシーな職業とも言われていますし,魅力に溢れていますね.あらゆる業界から引く手あまたであること間違いなしです.

 

データサイエンティストもうかうかしてはいられない

しかし,最もセクシーな職業であるはずのデータサイエンティストもそううかうかしていられません.次のブログを見てください.

cloud-ja.googleblog.com

Googleが「AIを開発するAIを開発した」と話題になりましたよね.このブログにも書かれている通り,実際に機械学習モデルをビジネスに当てはめるためには,高度な専門知識と試行錯誤できるだけの時間とモノが必要です.

あらゆるデータにうまくフィットする万能機械学習モデルなんてものは存在しません(今のところ).データタイプによって当てはめるモデルの種類は異なります.また,大体の機械学習モデルにはハイパーパラメータが存在し,それは感覚や経験的に設定するか,多大な時間をかけ,シミュレーションにより最適解を導き出すより他ありません.

これら一連の作業は,高度な専門知識を持つ,データサイエンティストにしかできない職務であったと言えます.その職務を,もうAIができるような時代がやってきてしまう(しまった)のです,,,.

 

AutoML(Automated Machine Learning)を開発したのは何もGoogleだけではありません.DataRobotはビジネスに直接結びつけられるAutoMLを提供していますし,プログラミング言語の一つであるPythonではAuto-sklearnやTPOTといったAutoMLのライブラリを使うことができます.

www.datarobot.com

 

AutoMLの誕生によって,世の中は「機械学習モデルを選ぶ(データサイエンティストにしかできない)」時代から「機械学習モデルを選ぶAIを選ぶ(誰でもできる)」時代へと,変化していく,,,そう感じました....あれ?データサイエンティストいらなくね?

 

データサイエンティストの必要性

では,「AutoMLができない」&「専門知識を持たない人ができない」&「データサイエンティストができる」ことってなんなんでしょう.以下の4点を思いつきました.

  1. AutoMLが理解できる形にデータを変換,統合すること
  2. AutoMLのアウトプットの理解とビジネスへの適用
  3. より効率のいい,高精度なAutoMLをつくる
  4. AutoMLを超える(効率,精度両方の意味で)

まず,1ですが,大体の企業ではデータを複数のテーブルに保存していると思います.そのデータを変換したり,テーブルをうまく統合するにはやはり専門的な知識を持った「人」にしかできないでしょう.AutoMLは生データの各特徴量の意味やその繋がりを人間的な感覚で理解することはできません.

2は,1と近しいと思いますが一応.AutoMLが作るモデルはいわば仮想社会?のようなものです.人間の存在している社会は実社会です.アウトプットの解釈とその適用は,仮想社会で立てられたモデルを実世界に適用できるよう「変換(翻訳)」することであると言えます.翻訳者はデータサイエンティストにしかできないと考えます.(1はインプット,2はアウトプットで,仮想社会と実社会の繋ぎ役はデータサイエンティストにしかできないよね,というお話です,多分)

3,4はもうほぼ同じですね.めちゃくちゃに頭のいいデータサイエンティストであれば必要ない訳ありません.

 

データサイエンティストの必要性を何とか見出すことができました.しかし,1,2だけを考えるとデータサイエンティストのハードルが低くなってしまったように感じます.1,2レベルではデータサイエンティストとは言えなくなってしまうかもしれません.また,アウトプットの理解については今後,AutoMLが 「人にとって理解しやすい形」で出力してくれることも全然考えられます(汗).逆に3,4はあまりにもハードルが高すぎます.厳しい世界,,,.

 

ということで

もちろん私はデータサイエンティストではありません.しかし,将来はデータサイエンティストになりたいと思ったり思わなかったりしているので,職業を訊かれた時,データサイエンティストと答えづらい,そんな時代がやってこないよう祈ったり祈らなかったりしている修士1年生でした.まる.