日企社畜的 Kaggle通用汽车公司之路

https://www.kaggle.com/haqishen

日企社畜的 Kaggle通用汽车公司之路

前言

最近拖延症又犯了,这篇文章居然前前后后写了两周才发出来,罪过罪过~

其实我第一次参加 卡格尔比赛可以追溯到2017年,也就是我刚毕业参(成)加(为)工(社)作(畜)的那一年。从那年起我虽然断断续续的参加了好几个比赛吧,但因种种原因没能把任何一个坚持到最后= =

真正意义上说我开始认真参赛应该要从19年6.月底算起,到我在今年20年6.月底拿下 大师正好过去了一年时间。

在这一年里我一共陆陆续续参加了9场比赛,收获5.枚金牌(其中3.个独奏),2枚银牌(2个都是独奏)以及1.个铜牌。

在这过程中得到了非常非常多贵人的相助,虽然他们分散在世界各地,但 卡格尔这个平台让我们跨过时空产生了联系。我非常地感谢他们。

废话就不多说了,疫情结束后你们谁要是来东京玩的话来找我!请你们喝酒!

日企社畜的 Kaggle通用汽车公司之路 2019.6~2020.6战绩

简短的自我介绍

14年电子商务专业本科毕业后赴日留学,侥幸跨专业考入东京大学成为反恐精英狗,后在某年轻的正教授的研究室下研究计算机视觉(CV)

17年初硕士毕业后留日工作。在第一家公司做计算广告,优化CTR、CVR、CPM之类的。

19年中跳槽,目前在 LINE公司。的机器学习组里为公司里的各种 服务做推荐系统。

由于 生产线是属于垄断寡头那一类的公司,所以业务模型对精度要求不高。导致我内心中很有危机感,于是乎到 卡格尔上学习。没想到一学竟然学成了 大师只能感叹世事难料,人生处处充满惊喜。感恩。

我的第一个 Solo金牌

现在回想起来我仍然觉得自己简直是幸运星降世。我在一个我当时完全不熟悉的领域(自然语言处理)里参赛,居然获得了一枚 独奏金牌(我的首金),而且还拿到了 $5,000 的比赛奖金!

让我们从头讲起。

之前我在学校做的是计算机视觉(CV)方向的研究,工作之后主要做推荐系统(表格)对 自然语言处理的认识只停留在听说过 RNN,LSTM这类名词的程度。

而去年6.月份我在机缘巧合下拥有了一定的计算资源,为了避免浪费我决定找个比赛玩玩,然后我就看中了 拼图举办的这个 自然语言处理比赛。拼图在 2018年已经举办了一场 自然语言处理比赛了,这次是第二场。

日企社畜的 Kaggle通用汽车公司之路

https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification

拼图的这个比赛是一个英文文本二分类的任务,需要训练模型自动判断文本是否具有羞辱性(有毒)这是一个相对来说容易上手的 自然语言处理任务。

当时决定要参加这个比赛,最初的想法只是想学习一下 自然语言处理相关的基础知识,以后遇到相关的话题好歹能插上两句这样。恰逢 伯特横空出世,我干脆就跳过了 LSTM公司直接 伯特来调参以及试 戏法了。

说到这里要非常感谢 卡格尔社区里的很多人,他们在 内核以及 讨论里分享了大量知识以及代码,让我得以迅速地熟悉 自然语言处理的各种基础操作。已至于比赛尚未结束时我已经能自己想出新的 主意并且用代码实现来进行实验了。

比赛过程中我的排名在 公共LB上一直半死不活,在 前25-50名前后徘徊。当然我个人是非常满意的,毕竟我第一次接触 自然语言处理能守住 银色区域可以说是已经符合我的心理预期。金牌?压根儿没想过。

也正是因为我主要目的是为了学习,对冲榜没有太大野心,所以直到最后也没有组队(其实是不好意思和大佬们搭讪 = =)

然而生活总是会不经意间给人以惊喜,我在 公共LB上只能排在30+的 解决方案在 私人LB上竟然一举冲进了前10,排在了第8.上。大大出乎我了我的意料。更幸运的是这个比赛设置的奖金发到第十名,我也从中分到了 $5000!

于是在这一连串的惊喜中,我在自己第一次认真参加的 卡格尔比赛中拿到了我的第一个 Solo Gold以及第一笔参赛奖金。

日企社畜的 Kaggle通用汽车公司之路

(附上当时我写的赛后总结英文版:https://www.kaggle.com/c/jigsaw-unintended-bias-in-toxicity-classification/discussion/100961)

我的第二个 Solo金牌

如果有人对我自称幸运星降世表示怀疑——那我跟你讲,我在自己第二个认真参加的 卡格尔比赛中拿到了我的第二个 Solo Gold以及第二笔奖金![手动狗头][手动狗头][手动狗头]

服不服!

好吧好吧,故事咱还是从头讲起。

比较熟悉 卡格尔晋升规则的小伙伴可能会了解,想要晋升 Kaggle GM一共需要5.枚金牌,并且最少要有1.枚 独奏金牌。于是乎一时间 独奏金成为晋升 转基因的的最大拦路虎,多少风云好汉都倒在了这一道门槛上,哪怕身怀6~8枚团队金牌,也只能望 转基因的生叹,无法获得这尊贵的金色标志。

日企社畜的 Kaggle通用汽车公司之路

那么问题就来了。我一上来就把最大的拦路虎打倒了,还有什么能阻止我上 转基因的我当时就觉得!没有!于是我兴致勃勃地冲进了下一个比赛。

日企社畜的 Kaggle通用汽车公司之路

https://www.kaggle.com/c/aptos2019-blindness-detection

这是一个图像分类的比赛,要求训练模型通过视网膜图片自动判断糖尿病性网膜症处于哪个阶段,从无病到病情严重一共分为5.个等级。

这是我熟悉的 个人简历领域,但这个比赛有一个问题,那就是本地实验结果无法与 公共LB对上。线下实验结果好的模型,提交上去分数居然没有提高。这可如何是好?

答案是没有答案。我只能一边努力的做高线下的成绩,一边望着排行榜的高分暗自着急。

我曾经在比赛中期一度冲进了金牌区,但是又因为后继乏力,排名不断下降。如果你们之中有人打过比赛的话,一定能体会到我的这种心情——前排那帮人到底做了什么?居然还能继续上分?

哎!过程就不多说了,在比赛接近尾声时我发现我无法冲进金牌区,但又离金牌区并不遥远,于是萌生了组队的想法。但当时我还不认识各位大佬们,又由于时间过于紧迫,临时搭讪的人要不就是已经组好了队,要不就是提交次数总和已经超额无法组上队伍。于是乎我发现我竟然落单了!T T

好吧好吧,既然落单了那就只能尽人事听天命了。我最终选择了我线下分数最高(但并不是在 公共LB上最高)的一套模型交了上去,搏一搏,单车变摩托,万一线下分数更接近 私人LB呢?当然结果我也已经剧透过了,最终结果是我在私榜上排第四名,又一个 Solo金牌入手了。而且这个比赛奖金正好发到第四,所以我又莫名其妙拿了 $5000的比赛奖金。

在这场比赛里我最大的收获就是,相信线下实验 (信托简历)

说到这里我得插一句,比赛刚结束的时候我其实是排在第七,但是前排有2.个人由于互相之间私下共享模型导致双双被删,还有另一组人由于在早期开小号增加提交次数也被删了。于是乎这么一排下来我居然就变成了第四名。实在是世事难料,祸福难知。

恰逢比赛期间 效率网横空出世,在赛中大放异彩 (赛后发现前10里起码有8.个人用了 效率网)所以我这次终于算是在 个人简历领域也跟上了时代的脚步。

哪怕在一年后的今天 (20年7.月初),效率网仍然具有 新加坡艺术学院的实力。在此强烈推荐给大家,没用过的一定要试一试。

日企社畜的 Kaggle通用汽车公司之路

(附上我当时写的赛后总结英文版:https://www.kaggle.com/c/aptos2019-blindness-detection/discussion/107987)

折戟沉沙期

入手了两枚 Solo金牌以及2.次比赛奖金的我已经完全膨胀了,当时甚至觉得拿 Solo金牌就如切瓜砍菜一般容易,我马上就要拿下5.个 Solo金牌成为 Solo总经理走上人生巅峰啦!

然后现实马上给了我两巴掌,一左一右,讲究。

在接下来的2.场比赛里我颗粒无收,都只拿到了银牌。

日企社畜的 Kaggle通用汽车公司之路

所以说没有任何人是会一直受到上天眷顾的,世界上牛逼的人多了去了,最好还是不要做太过分的梦。

我的第三个 Solo金牌

实话说在我获得的5.个金牌中,这是唯一一个,在开榜之前我就100%确信自己能拿到金牌的比赛。

日企社畜的 Kaggle通用汽车公司之路

https://www.kaggle.com/c/bengaliai-cv19

原因其实特别简单,因为绝大多数人直到比赛结束那天都还没把题目审明白= =

这个比赛乍看之下,只是一个普通的孟加拉文的光学字符识别任务而已。

首先,每个孟加拉文都可由3.个部分组成,这三个部分分别叫做 grapheme_根、元音_变音和辅音_变音。

这有点类似于汉字的”艹“字头加下面一个”早“就构成了”草“一样的感觉。艹和早,就是草字的两个”部分“。

构成孟加拉文字的”部分“是有限的,加起来只有不到200种,但排列组合后形成的”文字“却种类繁多(超过1瓦种)。在这种情况下,官方只给出了其中1000多种文字,希望我们训练模型去识别他们的3.个”部分“,以此达到只用1000多种文字训练,却可以识别出上万种文字的效果(因为只要能正确识别3.个部分,就能组合成唯一的文字)

同时,官方在比赛声明中提到了私榜数据集中包含了训练集中未出现过的”文字“,但所有”部分“都是已知的。

很明显,从未在训练集中出现过的数据是非常难以被正确识别的。所以这是一句非常重要的声明,但是却被大多数人忽略掉了。

所以其实没啥好说的,比赛后根据大家公开的信息,我们得知共有11支队伍对未知的”文字“进行了优化,结果他们最终都拿到了金牌(包括 独奏的我),另有3.支队伍(或个人)靠抽奖抽中了金牌。

审题,很重要。

日企社畜的 Kaggle通用汽车公司之路

(附上我当时写的赛后总结英文版:https://www.kaggle.com/c/bengaliai-cv19/discussion/135990)

我的第一个 团队金牌

日企社畜的 Kaggle通用汽车公司之路

https://www.kaggle.com/c/deepfake-detection-challenge

这就是前一段时间在 卡格尔社区话题火得不行的 深假比赛。比赛任务是自动识别一段视频中的人脸是真实的,还是被人工智能替换过的。虽然数据量极大,比赛门槛较高,但奖金数额巨大,因此仍然吸引了非常多的参加者。

这个比赛的赛期和上面那个 孟加拉语。人工智能的赛期有一定的重叠,所以一开始我并没有打算参加这个比赛的,实在是分身乏术啊!但没想到我随手在群里发的想要抱大腿的信息,被 @一帆大佬看到了,经过简短的交流后被大佬翻了牌子,顺利地加入了他们的队伍。

比赛过程就不多说了,蛋疼的事情发生在比赛之后。

简单来说刚公开私榜的时候我们排在第一,后来因为和主办方对于比赛规则的理解产生分歧而被除名(卡格尔)留有的最后的良心让我们保留了另一个 最终提交这个 屈服使我们留在了金牌区,位列第七)。整件事的经过以及具体原因参见机器之心的报道或者是我们队伍的公开声明

机器之心:50万美元冠军成绩被莫名取消,脸谱网热门数据竞赛引争议https://www.kaggle.com/c/deepfake-detection-challenge/discussion/157983

在这个过程中 @一帆大佬出力良多,又是联系律师又是准备材料的,付出了非常的多。感谢大佬。同时还要感谢另一名国人队友 @加里以及另外两个外国小哥,在整个过程中都付出了很多。

但归根到底我们队伍里的人都是普通的工程师,显然无力和 FB公司这样的庞然大打官司,所以做了能做的一切之后只能认命。

结果是,FB公司似乎吃定我们无法掀起风浪,竟选择直接无视了我们的赛后声明。而事实也确实如此,在 卡格尔里一时火了半边天的帖子,在外界硬是没有兴不起半丝波澜。

我们的赛后声明直到今天,每天仍然有那么5 6个新生成的账号在下面刷回复,把所有的高赞回复都顶到了最底下去了。

日企社畜的 Kaggle通用汽车公司之路

我的第二个 团队金牌

无论如何,经历了上一个比赛之后,我在大群里已经不算是无名之辈了,同时我也已经进入了 转基因的倒计时。

在这个时候,我选择了 拼图在 2020年举办的新比赛,做人要有始有终嘛(?)。

日企社畜的 Kaggle通用汽车公司之路

https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification

这次任务比上次要复杂一些,上次是只需要鉴别英语是否具有羞辱性(有毒)而这次训练集虽仍是只有英语,但测试时却需要我们鉴别6.国语言是否具有羞辱性(有毒)

在参加比赛后没多久,群里另一位大佬 @天真的羔羊就来找我组队,比赛结束之前组满了5.人队伍,淳朴的做了一堆工程上的改进,淳朴的融合了一下,淳朴的拿到了金牌。

之所以对我们的比赛过程和解决方案一笔带过,是因为在这个比赛里第一名碾压其他人一条街,6.月底结束的比赛他们号称4.月底的 解决方案就已经足以拿到最终的第一名了,而剩下的2.个月一直在等比赛结束。= = 正所谓高手总是寂寞的,真是牛逼。

和他们的方案一比,我们真的只是做了一些工程上的事情,而对数据本身的探索不足,实在不足以拿出来说些什么,但姑且还是贴上我们当时的赛后总结吧 https://www.kaggle.com/c/jigsaw-multilingual-toxic-comment-classification/discussion/161100

日企社畜的 Kaggle通用汽车公司之路

说实在话,经历了这两场组队比赛之后,我发现组队实在是省心省力,假设队伍里每个人都有拿 Solo金牌的实力,那么组在一起之后每个人大约都只需要付出 独奏时三成的精力,就足以拿到组队金牌了。

就这样,在拿下3.个 Solo金牌之后再拿下2.个 团队金牌的我淳朴的成为了 转基因的相比于前4.场比赛的热情满满,过程的波澜壮过,这第五场比赛反而稍显平淡了。就如同生活一样,既有波峰,又有波谷,但终归是要回到平淡的。

我的故事到此就告一段落了。

但比赛仍在继续。

结语

这个帖子记录了我这一年来晋升 转基因的的心路历程。

我把技术部分省略掉了是因为这些东西都已经写在了 卡格尔的论坛里。有兴趣的可以从我的 轮廓里找到这些帖子。

希望能给后来者一些参考吧。

来源:知乎 www.zhihu.com
作者:幻云羽音

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。 点击下载