第一部份:Crowdflower Search Results Relevance
案例介绍:预测来自电子商务站点的搜索结果的准确性,将搜索得到的网页按相关性排序
获奖者所用方法:通过ensemble learning整合多个模型的结果
涉及算法:Ensemble learning
第二部份:Santander Product Recommendation
案例介绍:根据银行客户1.5年内的行为数据,预测用户会下一步会投资的新产品
获奖者所用方法:通过XGBoost构建了多个基本模型,然后将基本模型整合为一个总模型
涉及算法:XGBoost
第三部份:TalkingData Mobile User Demographics
案例介绍:根据用户的手机应用下载和使用行为来预测用户的人口统计数据(年龄、性别等)
获奖者所用方法: 先预测性别的概率;使用性别的预测值作为额外的特征加入到模型中,预测年龄;通过条件概率得到两个目标变量的预测概率
涉及算法:两段预测,XGBoost
第四部份:Facebook V: Predicting Check Ins
案例介绍:预测用户会在哪个地方登陆Facebook
获奖者所用方法:特征选择:数据块的近邻计算;模型构建:基于XGBoost的两步模型
涉及算法:XGboost
第五部份:Avito Duplicate Ads Detection
案例介绍:为了避免卖家发布各种经过少量改动的广告导致买家难以分辨,参赛者需要设计一个模型,自动识别配对中的广告是否同一个广告
获奖者所用方法:特征选择:采用了FTIM方法测试特征的不稳定性,提出过度拟合的特征。通过XGBoost和Keras构建一层模型;然后通过底层模型构建XGBoost 和随机森林,终综合两者结果得到终结果
涉及算法:FTIM;元模型
第六部份:Outbrain Click Prediction
案例介绍:在一组针对用户推荐内容中,预测用户点击每个链接的可能,将这些推荐内容按照点击可能的大小排序
获奖者所用方法:两步元模型:通过LibFFM构建第一层模型,再使用XGBoost和Keras构建第二层模型
涉及算法:LibFFM;XGBoost;Keras框架
第七部份:Click-Through Rate Prediction
案例介绍:预测某个广告是否会被点击
获奖者所用方法:将数据拆分成不同的子集,构建不同的子模型,再整合
涉及算法:LIBFFM
第八部份:Avito Context Ad Clicks
案例介绍:预测俄罗斯较大的一般分类网站的用户在浏览网站时,是否点击上下文广告
获奖者所用方法:预处理:散列技巧和消极的抽样。 学习方法:FFM、FM和XGBoost。
涉及算法:FFM;FM;XGboost
第九部份:Rossmann Store Sales
案例介绍:预测Rossmann公司各个门店的6周销售量
获奖者所用方法:分类特征的处理:创建了一种 Entity Embedding(实体嵌入)的方法去代表在多维空间中的分类特征。
涉及算法:Entity Embedding;神经网络
第十部份:Amazon.com - Employee Access Challenge
案例介绍:根据员工的职业角色,预测员工的访问需求
获奖者所用方法:11个模型的线性组合:使用不同特征训练的GBM模型,GLNNET模型,随机森林模型,logistic回归模型
涉及算法:GBM模型,GLNNET模型,随机森林模型,logistic回归模型
|