賞金稼ぎから仕事探しまで、世界のデータサイエンティストが「Kaggle」に集まる理由

ビッグデータ活用が注目される中、最もセクシーな職業とも言われる「データサイエンティスト」。大量のデータの中から特定のパターンに着目し、仮説を立ててその特徴を検証することが主な役割だ。企業のマーケティングから事業戦略まで、さまざまな場面でこうしたデータ分析が行われるようになった今、データサイエンティストの需要はとどまるところを知らない。

世界194カ国34万人のデータサイエンティストが参加

そのデータサイエンティストが集まるコミュニティ「Kaggle」は、2010年に創業した同名の企業によって運営されている。世界最大級のコミュニティに成長したKaggleは現在、世界194カ国34万8000人のユーザーが登録。日本の参加者も約2000人以上存在する。

一体そのKaggleで何が行われているのだろうか。実はKaggleでは、データサイエンティストとしての能力を試すさまざまなコンペティションが開催されており、データサイエンティストが日々コンペティションで自らの腕試しをしているのだ。

kaggle01

コンペティションの中には、企業が主催し成績優秀者に賞金を出すものもあれば、賞金は出ないがデータサイエンスの技術を学習するためにゲーム感覚で参加できるものもある。例えば、学習用として現在開催されているコンペティションの中には、1912年に沈没した豪華客船タイタニック号にて、どういったタイプの乗客の生存率が高かったかを予測するといったものもある。

参加者側も、腕試しや賞金稼ぎを目的に参加する優秀なデータサイエンティストがいる一方で、学習プラットフォームとしてKaggleを利用するデータサイエンス初心者も存在する。またKaggleでは、データサイエンティストを募集する企業が候補者を絞るためにコンペティションを開催するケースもあり、Facebookも頻繁にKaggle上で求人活動を行っている。こうした求人に応募することを目的に、Kaggleに集まるデータサイエンティストもいるのだ。

日本企業による初のコンペティションがKaggleに登場

このKaggle上で、日本企業として初めてコンペティションを開催するに至ったのが、リクルートホールディングスの人工知能研究機関であるRecruit Institute of Technology(RIT)である。RITはKaggle上で、リクルートのクーポンサービス「ポンパレ」の過去1年間の購買データをもとに、特定の1週間で販売されるクーポンがどのようなユーザーに購買されるのかを予測するコンペティション「RECRUIT Challenge – Coupon Purchase Prediction」を開催している。

リクルートホールディングスRecruit Institute of Technology Open Innovation Evangelistの加藤真吾氏

リクルートホールディングスRecruit Institute of Technology Open Innovation Evangelistの加藤真吾氏

RITは2015年4月1日に再スタートした組織で、グローバル規模の人工知能、機械学習、センサーなどの新技術の研究開発に取り組み産業界と生活者を結びつけるマッチングサービスを実現させようとしている。このRITでOpen Innovation Evangelistを務める加藤真吾氏は、「個人の能力がどんどん高まっており、企業に属さず必要な時に個人の能力を使って仕事を請け負うオンデマンドの世界が広がってきています。今回のKaggleでのコンペティションを通じて、企業対企業のみならず企業対個人の仕事がどうやって生まれるかを検証したいのです」と述べている。

Kaggle上で開催されるコンペティションに挑戦することで、参加者にも大きなメリットがあると加藤氏は説明する。それは、Kaggleでは世界レベルのデータサイエンティストと戦うことが可能なことにある。また、同コンペティションで優秀な成績を収めることができれば、世界のデータサイエンティストコミュニティでの認知度を上げることにもつながるためだ。

「Kaggleの中には、さまざまなコンペティションに参加して得たポイントの合計で決まるランキングが存在します。ランキング上位のユーザーが世界中から注目を浴びることは間違いありません。例えば8月25日現在ランキング1位となっているOwenさんは、これまでにさまざまなコンペティションに参加し、1位や2位を獲得し賞金を稼いでいます。日本のデータサイエンティストコミュニティ内だけで活躍していても世界で通用することは難しいですが、世界194カ国のデータサイエンティストが集まるKaggleで競争し、学習し、優秀な成績を残すことができれば、世界レベルのデータサイエンティストとして活躍することもできるのです」(加藤氏)

エンジニアにとってGitHubで得たStarの数がステータスなように、データサイエンティストはKaggleのランキングがステータスになっていると、加藤さんは語る

エンジニアにとってGitHubで得たStarの数がステータスなように、データサイエンティストはKaggleのランキングがステータスになっていると、加藤さんは語る

事実、RITが主催する今回のRECRUIT Challengeにも、世界中から挑戦者が集まってきている。8月12日現在の参加チーム数は435。現時点でトップの成績を収めているのは、インドを拠点としているユーザーSRKと、米国を拠点としているユーザーrcarsonの2人によるチームだ。8月25日現在の参加チーム数は574で、トップの成績を収めているのは、シカゴを拠点にしているフリーの研究者のHalla Yang氏だ。

加藤氏は、「RECRUIT Challengeに参加した日本のデータサイエンティストや学生が、Kaggleのコンペティションの参加方法を理解し、他のコンペティションにも参加するようになってほしいと思います。データサイエンティストにとってこれほど良い学びの場はないですし、Kaggleで良い成績を収めることは将来の自分のキャリアにもプラスになるのですから」と語る。

初心者にとっても参加しやすい仕組みがKaggleには備わっている。掲示板でわからないことを質問すれば、他のユーザーが答えてくれる。また、自ら作ったスクリプトと、そのスクリプトで得たスコアを公開するユーザーも存在し、そのスクリプトを参考に自ら新たなモデルを作成することも可能なほか、自身のスクリプトも公開して改善案を得ることもできる。単に賞金を獲得するだけでなく、こうしたコミュニティの知恵でさらに学習できることも、Kaggleにさまざまなユーザーが集まる背景となっている。

kaggle02

世界で勝負する学生に場を提供したい

RECRUIT Challengeの開催期間は、7月16日から10月1日の8時59分(日本時間)までで、この期間中いつでも参加可能となっている。作ったモデルを提出すればスコアがすぐにわかるため、より高いスコアを目指して何度でもモデルを改善し、提出することが可能だ。

具体的なチャレンジ内容は、RITが提供するポンパレのユーザーデータ(年齢、性別、居住地、ユーザー歴、過去1年のクーポンの購買履歴など)に基づき、1年間のデータの最後1週間に販売されるどのクーポンがどういったユーザーに購買されるか・されないかを予測するというものだ。

例えば、福岡在住の20歳代の女性が、福岡のとあるレストランのクーポンを買う可能性が高いと予測したとする。こうした予測を元に提出したモデルのスコアが低かった場合、福岡の中でも博多在住といったように居住地の軸を変更したり、夜に販売されたクーポンを買う確率が高いユーザーに絞り込んだりと、新たなモデルを作成し、再度提出するといったことが可能だ。

このコンペに参加するには、Kaggleにログインしてから、1)解析に必要なデータのダウンロード、2)分析モデルの作成・改善、3)結果の提出——という手順を踏む。以下、写真でコンペの流れを説明する。

ログイン後のTopページからリクルートが開催しているコンペを選択

ログイン後のTopページからリクルートが開催しているコンペを選択

コンペのページから、データをダウンロードするためにリンクをクリックする

コンペのページから、データをダウンロードするためにリンクをクリックする

すべてのデータをダウンロードする

すべてのデータをダウンロードする。サンプルの分析スクリプトはこちらを参照

後は実際に分析して結果を提出する

後は実際に分析して結果を提出する

検索提出画面に遷移するので、結果を添付する

検索提出画面に遷移するので、結果を添付する

初めてコンペに参加した場合、ショートメールでの認証が必要となる。以上の認証をクリアすれば、結果が登録される流れ

初めてコンペに参加した場合、ショートメールでの認証が必要となる。以上の認証をクリアすれば、結果が登録される流れ

RITでは、通常のKaggleのコンペティションで設けられた賞金とは別に、学生向けの特典も用意している。学生向け特設ページを介して参加した学生には、別途この枠内で上位3位までの入賞者に賞金を提供する予定だ。

kaggle03

「データサイエンティストの能力は、言語や国を越えて生かすことのできるものです。そのため、日本の学生でも十分に世界で勝負できるのですが、これまではそういった機会がありませんでした。学生に今回のコンペティションを通じて、世界で活躍できる場を提供したいと考えています」と、加藤氏は学生向けに特典を設けた背景を説明する。同氏によると、この枠を通じて参加している学生の中には、高校3年生の参加者や、上位にランクインしている東京工業大学の学生もいるという。

「データサイエンティストに限らず、リクルートは学生を世界で活躍させたいと常に考えている会社です。日本の優秀な学生が日本企業に就職することも大切ですが、彼らにとって本当の幸せが何かを考えると、世界で勝負したい学生にはそのような場を提供したいのです」(加藤氏)

将来的には、Kaggleでの取り組みをリクルートのマッチングビジネスにも生かしたいと加藤氏は語る。「どの情報を誰に届けると最も効果的かを考えるのがマッチングです。ポンパレの場合はクーポンとそれを購買する人、リクナビであれば求人広告と求職者といった具合に、両者を結びつける精度が高まるとユーザーが望むより良い機会に出会える瞬間を多く提供することができ、結果的にわれわれのビジネスも大きくなります。そのマッチングビジネスにデータサイエンスを活用していきたいですね」と加藤氏は言う。

RECRUIT Challengeで好成績を収めたユーザーは、賞金を獲得できるのはもちろんだが、「今後特定のプロジェクトにおいてモデルを作ってもらうよう、個別に契約を結ぶ可能性もあるかもしれませんし、採用に結びつくこともあるかもしれません」と加藤氏は述べている。

Kaggleという場でチャレンジすることの可能性は、限りなく広がっていそうだ。