气床ds(algorithm track)OA

感觉airbnb ds的帖子好少…

靠朋友内推居然拿到了ds算法track的oa,表示真的很幸运了,过不了是情理之中,过得了我要怀疑这个bar了…
题目要求搭模型预测某个房子某个时间点是否会被book。提供的数据包括房子自身信息(经纬度,房子类型,是否有wifi之类的),房子本身的受欢迎程度(点击量之类的),房子所在城市的受欢迎程度,房子所属cluster的受欢迎程度,大概是这四个大维度的信息。然后就可以自由发挥,data preprocessing, exploration之类的。要求从baseline model开始,逐渐提升。最后除了model之外,还要给一些建议。

这类的data chanllenge,说实话我也不知道怎么做比较好,如果有过了的小伙伴,可以分享一下经验吗?

希望下一个碰到的是只要做了就能过的oa…

多谢lz分享,最近也挂在这个test上面,同求思路

我觉得我的套路可能太ml了(按套路的清理data,用knn去填补缺失值,从logistic regression开始逐渐变成gbdt模型,加一些特征之类的),没什么展示的环节,虽然也做了一些data exploration,但整体其实从reviewer的角度来看,可能不是那种可以直接用来present的材料…我也不知道T.T…你是怎么做的么?

跟你的思路差不多,clean data, 做一点visulization, 然后fit不同的model, 比较一下结果, 也悲剧了。。。

看看有没有其他过了的大神了…

只是大概的猜想,可能他们自己有一条线,比如说AUC必须足够高,因为有那么多的面试的人。
如果准确率差不多的话,从数据出发,给出的建议或是挖掘出来的insight也是比较重要的。可能有人给出想法更新颖更对他们的胃口吧。

model的performance怎么样?

请问楼主,数据里面有book是否的target吗?是supervised learning还是不是。能否分享那个数据文件。。。

请问你是多久给消息的,我也刚做了这个OA,一个礼拜了也没给消息。。。。

是supervised learning, 最基本的binary classification