【簡単】世界のデータサイエンティストが集うKaggleの始め方

データ分析の初心者の方へ

データサイエンティストになりたい。機械学習とかパイソンとか勉強したいけどとうやったらいいの?始めるのに不安がある。道筋もみえない。

そんな悩みを解決します。

目次

  • 1.Kaggle(カグル)とは
  • 2.Kaggle(カグル)の登録方法
  • 3.Kaggle(カグル)のコンペに参加
  • 4.Kaggle(カグル)の効率よい進め方

この記事を書いてる私は一部上場企業で10年データ分析を経験してきました。現在も、受注予測システムを導入し実際に統計モデルを作って実業務に組み込みしています。一人でも多くのデータサイエンティストが生まれればと考え記事にしました。

って、こんな私も1週間前にカグルを知りました。

1.Kaggle(カグル)とは

データ分析の天下一武道会とも呼ばれています。

  • Googleの子会社Kaggleが運営している
  • 世界のデータサイエンティスト、機械学習エンジニアが腕を試す場所
  • コンペティション(競争)で上位に入れば賞金もでる(現在:200~1000万円)
  • Googleアカウント又はメアドがあれば誰でも無料で登録可能
  • Webサイト上でPythonやR言語を動かせる(勉強に使える
  • 海外のサイトなので英語(Google翻訳を使えば良いです)

Kaggleは企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム

Wikipedia

学習サイトとしている方もいると考えます。「データをこんな視点で見るのか?」「こんな区切り方や、捉え方があるのか?」といった発見も多くあるので面白い場所です。

世界のデータサイエンティスト、機械学習エンジニアが腕を試す場所って聞くと、敷居が高そうに聞こえますが、誰でもお金かけずに登録できます。

千里の道も一歩から、まずは登録してみましょう。

2.Kaggle(カグル)の登録方法

それでは、さっそくカグルに登録しましょう

https://www.kaggle.com/

まず、右上の「Register」をクリック

Googleアカウントがあれば上をクリック、メールアドレスがある場合は下をクリック

※今回はGoogleアカウントで登録

名前を聞かれますので入力してNEXT

Iagreeをクリック

登録完了です。

左ナビの説明です。

  • HOME:トップページに移動します
  • Compete:開催されているコンペ大会への入り口です
  • Data:データが格納してあります
  • Notebooks:他の人の機械学習コードを検索できます
  • Discuss:掲示板です、わからないことを話し合えます

右上のアヒル(丸でかこまれている)をクリックすると、あなたのプロフィールとアカウントを確認することができます。

3.Kaggle(カグル)のコンペに参加

登録が完了したらさっそくコンペに参加しましょう。最初は練習用に用意されているタイタニックから始めるのが良いです。

まずは、左ナビの「Compete」をクリック

タイタニックのコンペが上部にあるのでクリック

参加するをクリック

Notebookをクリック→右の青い「NewNotebook」をクリック

補足説明

  • Ovreview:コンペの概要、予測の送信方法などの説明
  • Data:データの説明、簡単な傾向が見れます
  • Notebook:プログラムや説明、実行結果を管理できる、データ分析用のツール(Python,R言語が使えます。)
  • Discussion:議論の掲示板です。他の人の質問や投稿ができます
  • Leaderboard:提出物の確認。順位の確認できます
  • Rules:ルール
  • Team:チームを組めます

Createをクリック

補足説明

  • 言語:Python か Rのいずれかが選択できます。
  • 編集:Notebook形式かScript形式の2つが選択できます。はじめは視覚的に理解しやすいNotebookで始めましょう。

Notebookが表示されます。

以下のコードを単体で実行しみることもできます。

  • 1+1
  • print(‘hello world’)

既にデフォルトで記載してある文字を以下に置き換え(コピペ)します。

# pandasのインポート
import pandas as pd  

# csvデータを読み込む
df = pd.read_csv('../input/titanic/gender_submission.csv')

#サブミットデータのSurvived列を0に変更
df['Survived'] = 0

# dfをsubmission.csvとしてcsvファイルに書き出す
df.to_csv('submission.csv', index=False);

補足

  • 結果をすべて0=全員生存しないとしています。

次に、SaveVewsionをクリック

Saveをクリック

実行が終わったら「SaveVersion」の右の数字をクリック→「Go to Viewer」をクリック、下の方にスクロールしていくと「Submit to Competition」がありますのでクリックします。

結果がでます。全員生存しないとした場合の正解率は62.6%という結果となりました。下のリンクから順位も確認できます。

ここまでが提出までの一連の流れになります。

4.Kaggle(カグル)の効率よい進め方

結論から言いますと、未開拓の砂漠、そんななかで旗をたて高速道路を整備して、盛り上げている先駆者を参考にするのが一番早いです。

参照先:https://note.com/currypurin/n/nfbff5ebebbdc

カレーちゃんさんのYoutube

Takami Satoさんのメルカリコンペの優勝コードを眺める

よい学びがあればここに追加していきます。

まとめ

世界のデータサイエンティストが集うKaggleの始め方を紹介させていただきました。

まだまだ、カグルで検索しても「家具類」でヒットすることも・・・ですが、着実に認知度は上がっています。

未来の日本のデータを扱う人が1人でも増えれば幸いです。

(私も息子が希望したらやり方を伝えたいです。)

それでは、良い一日をお過ごしください。