气床ds(algorithm track)OA

DMGY · 2018 年11 月 12 日 03:38

感觉airbnb ds的帖子好少…

靠朋友内推居然拿到了ds算法track的oa，表示真的很幸运了，过不了是情理之中，过得了我要怀疑这个bar了…
题目要求搭模型预测某个房子某个时间点是否会被book。提供的数据包括房子自身信息（经纬度，房子类型，是否有wifi之类的），房子本身的受欢迎程度（点击量之类的），房子所在城市的受欢迎程度，房子所属cluster的受欢迎程度，大概是这四个大维度的信息。然后就可以自由发挥，data preprocessing, exploration之类的。要求从baseline model开始，逐渐提升。最后除了model之外，还要给一些建议。

这类的data chanllenge，说实话我也不知道怎么做比较好，如果有过了的小伙伴，可以分享一下经验吗？

希望下一个碰到的是只要做了就能过的oa…

stn5755 · 2018 年11 月 12 日 03:38

多谢lz分享，最近也挂在这个test上面，同求思路

DMGY · 2018 年11 月 12 日 03:39

我觉得我的套路可能太ml了（按套路的清理data，用knn去填补缺失值，从logistic regression开始逐渐变成gbdt模型，加一些特征之类的），没什么展示的环节，虽然也做了一些data exploration，但整体其实从reviewer的角度来看，可能不是那种可以直接用来present的材料…我也不知道T.T…你是怎么做的么？

stn5755 · 2018 年11 月 12 日 03:40

跟你的思路差不多，clean data, 做一点visulization, 然后fit不同的model, 比较一下结果, 也悲剧了。。。

DMGY · 2018 年11 月 12 日 03:41

看看有没有其他过了的大神了…

Scarlet · 2018 年11 月 12 日 03:42

只是大概的猜想，可能他们自己有一条线，比如说AUC必须足够高，因为有那么多的面试的人。
如果准确率差不多的话，从数据出发，给出的建议或是挖掘出来的insight也是比较重要的。可能有人给出想法更新颖更对他们的胃口吧。

mqm · 2018 年11 月 12 日 03:42

model的performance怎么样？

DMGY · 2018 年11 月 12 日 03:43

请问楼主，数据里面有book是否的target吗？是supervised learning还是不是。能否分享那个数据文件。。。

blx444444 · 2018 年11 月 12 日 03:44

请问你是多久给消息的，我也刚做了这个OA，一个礼拜了也没给消息。。。。

blx444444 · 2018 年11 月 12 日 03:45

是supervised learning, 最基本的binary classification