#6 Sansan x atmaCup を開催しました。
おこんばんは。取締役の山口です。少し遅くなってしまいましたが Sansan 様と #6 Sansan x atmaCup を開催しました。
第6回目となる今回はコロナウイルスの影響もあり基本オンライン・最終日LTを行なう方だけがオフライン参加という形での開催となりました。
お題はネットワークに関するデータからの出題で、とても Sansan さんらしいデータかつ課題になっており、とても珍しいものでした。
参加された方も新鮮みがあって面白かったという意見が多かったように思います。(同時にあまり扱わないデータなので大変でした、という意見もありました。僕も課題設計フェーズで相当勉強したので最初のキャッチアップは大変だったのかなとは思います)
初心者向け講座 #1
atmaCup はデータ分析・コンペ初心者のかたの参加を歓迎していて、毎回そういった方々対象の初心者向け講座を開催しています。今回も nyk510 から初心者向け講座を2回に分けて開催しました。 講座#1はデータの見方についての講座で pandas-profiling によるデータ全体の可視化・Train/Testでのデータのズレについて・時系列データの取り扱いと可視化について紹介しました。
この配信諸事情があり闇の中からの配信となりました。
光るデータサイエンティストと山城 @nyker_goto pic.twitter.com/JEPDIsYH00
— OpenJNY (@OpenJNY) 2020年10月20日
↑の写真だとだいぶ綺麗に見えますが、実際の配信画面は↓の感じで真っ暗です笑
初心者向け講座 #2
講座#2は実際にsubmissionをするまでについてを解説しました。特徴量作成の方法と壊れにくいコードの書き方、LightGBMによるモデル作成、特徴重要度の確認方法など紹介しました。
活発なディスカッション
コンペで使っているぐるぐるではディスカッション機能がついています(コンペ参加者が閲覧できる掲示板のようなものです)。 今回も序盤からいろいろな方が知見をディスカッション上で共有してくれました! 特に @nino_pira さんのGCNに関するdiscussionはコード付きでGCNを動かすnotebookで「こんなのだしていいのか…」と思ったのを覚えています。(最終的に nino_pira さんはこの post で nyk510賞を獲得されました。おめでとうございます🎉)
「皆さんの知見共有のために!!」と思いGCNの実装例をディスカッションに投稿
— にのぴら (@nino_pira) 2020年10月22日
精度悪すぎて公開するか悩みましたが 冒頭に書いてる通り本コードを改良してPublic0.77まで到達しております(小声)
(ディスカッションのURLをツイートしても参加者以外は見れないはず)#atmaCup https://t.co/TUQwuBdCHW
閉会式
閉会式は Sansan 本社からの配信という形で行いました。僕もSansanさんオフィスに伺って配信に参加しました。Sansanさんのオフィスとても綺麗で感動していました(現代美術館かなにかか?っていうぐらい綺麗)。
じゃん! pic.twitter.com/e7sDAcasU4
— nyker_goto (@nyker_goto) 2020年10月31日
今回のコンペでは学生1/2/3位と社会人1/2/3位、加えて総合での1位に賞金が授与されました。
学生の部: 3位: tonak_ai さん / 2位 T0m さん / 1位 NmaViv さん 社会人の部では 3位: --pao-- さん / 2位 mrkmakr さん / 1位 takoi さんでした!
また総合ランキングは社会人の3名がそのままランクインし、総合優勝も takoi さんとなりました!🎉
総合ランキングと時系列の推移はぐるぐるの下記ページからも閲覧できます。 https://www.guruguru.science/competitions/11/summary
LT大会
今回はコンペ終了後に取り組み内容等に関することを発表するLT大会が用意されていました。 LT大会は学生・社会人の枠で数名ずつ発表を行い、DSOCの研究員の皆様で審査を行い、学生・社会人それぞれに対して優秀者を決定するという流れです。
どの発表もとてもレベルが高かったのですが、優秀者に選ばれたのは 学生 tatei さん / 社会人 u++ さんのお二人でした! おめでとうございます🎉
LT大会で最優秀賞を頂きました。次はコンペで勝てるよう頑張ります。運営の方々、企画ありがとうございました🙏 #atmaCup pic.twitter.com/fovxXoXMBY
— u++ (@upura0) 2020年10月31日
こちら Sansan さん側のご提案で企画した、はじめての試みだったのですが皆さんの発表のレベルがとても高く、コンペの内容に関して理解がぐっと深まったように感じました。今後も機会があれば同様の枠を用意して開催できればと考えています。
僕も審査員として参加させていただいたのですが、みなさんの発表のレベルに応えなくてはと思って、特に発表するわけではないのにかなり緊張していたのが思い出されます。
また当日、発表枠に空きが出て急遽LTを募集したのですが nekoumei さん / @nino_pira さんに参加いただきました、こちらもありがとうございましたmm
振り返り回
今回も恒例の振り返り回を Sansan さん主催で別日に開催しました。オンラインオフライン合わせて 150 人を超える応募があり、入賞者の T0m-y さん、優勝の takoi さんから solution の解説発表をしていただきました。
データコンペティション中はどうしてもやっていることと結果の対応関係が発散しがちなのですが、お二人共取り組み内容がとても整理されていて流石入賞者は違うなと思います。
また Sansan DSOC 所属の黒木さんからはグラフ分析の基礎から実際にSansanで用いられているグラフに関するアルゴリズムについての解説をしていただきました。僕自信グラフについての網羅的知識がなかったのでとても参考になりました。
どちらもSpeakerdeck上からアクセスできますので是非ご覧ください!
最後に
今回も多数の方に参加いただいて、Discussion・LTなど盛り上げて頂いてありがとうございました。 また共催の Sansan さんには課題設計のフェーズから手伝っていただき、問題設定の検証やデータをどこまでオープンにするかなど、私の方から無理を承知で多数お願いしたのにもかかわらず快くご調整いただきました。大変ありがとうございました。
atmaCupは今後も開催予定です。データ分析慣れている方から、初心者の方まで、誰でも参加して学びがあって楽しいコンペになるよう頑張っていきます。少しでも興味あるよーという方は是非参加いただけると幸いです!