博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
对机器学习与数据竞赛的一些总结(转)
阅读量:5017 次
发布时间:2019-06-12

本文共 1017 字,大约阅读时间需要 3 分钟。

应导师要求,给新来的师弟师妹讲讲机器学习的一些东西,方便有个大概的结构,本人不才,略写点自己的看法和总结,有错误之处请多多指教。

回顾比赛

最近半年参加的比赛成绩:

1.  阿里音乐流行趋势预测大赛  2016.5.17-7.15    Top 15/54762.  最后一公里极速配送   2016.7.4-9.9    Top 31/14603.  阿里云安全算法挑战赛   2016.8.22-10.13  Top 1/9404.  机场客流量的时空分布预测   2016.9.28-11.28  Top 28/3038

比赛感悟,有了成长,更有了坚定的目标,比赛中深刻发现自己学习方面的缺陷,封赛专心学习,重打基础,做更靠谱的方案。

基本过程

具体问题需要具体分析

基本处理过程

数据清洗/处理

数据清洗直接影响后期特征和模型的效果,必须重视!

1. 缺失值处理(删除、补全、标记为缺失特征等)
2. 异常数据处理(删除、平滑等)
3. 不规范数据规范化
4. 构建合适样本(解决样本倾斜等)
5. 划分数据集(train validation test)
这里写图片描述

特征工程

特征工作是重中之重,特征提不好,模型很难提升上去,特征好了,效果提升很模型。

特征构造

根据业务场景来构建特征(特征不要时间穿越,不要用到标签) 交叉特征(多项式组合,GBDT与LR构造组合特征) 时间窗口特征 变换特征(log、归一化等) 连续特征离散化 离散特征连续化(独热编码、向量化等)

特征选择

这里写图片描述

这里写图片描述
这里写图片描述

模型选择

regression (回归),classification (分类),clustering (聚类)

常见的回归算法

这里写图片描述

常见的分类算法

这里写图片描述

常见的聚类方法

这里写图片描述

规则

结合实际业务背景,简单有效的规则,可用于模型融合。

推荐算法

这里写图片描述

参数优化

交叉验证避免过拟合,针对评测函数优化,重构模型损失函数。

网格搜索遍历优化等,与模型本身数学推导和数据情况有关,具体略。

资源分配

预处理10% 特征过程60% 模型调整/融合30%

文本处理

这里写图片描述

不平滑数据处理

暂略

- 过采样/欠采样
- 代价敏感

集成学习

这里写图片描述

参考:

迁移学习

暂略

参考数加平台

统计分析

这里写图片描述

网络分析

这里写图片描述

大规模机器学习

这里写图片描述

 https://www.2cto.com/net/201612/580249.html

转载于:https://www.cnblogs.com/demo-deng/p/7525493.html

你可能感兴趣的文章
004_URL 路由 - 定制路由系统 & 使用区域
查看>>
ganglia Web前端清除当机节点
查看>>
Week4 案例分析
查看>>
Java----用正则表达式匹配Java源码中的关键字
查看>>
HDU2896+AC自动机
查看>>
使用c#创建一个可以监视全局鼠标位置的程序
查看>>
Asp.Net MVC2 控件开发实例(3)
查看>>
从零开始配置Ubuntu 14.04&SSH&curl&Git&MongoDB&Node.js
查看>>
SpringCloud微服务实战
查看>>
opencms研究笔记
查看>>
基础薄弱的反思
查看>>
ORACLE增删改查以及case when的基本用法
查看>>
[转]oracle10客户端PL/SQL Developer如何连接远程服务器上的oracle数据库
查看>>
HTML5 表单元素和属性
查看>>
SDUTOJ 2498 数据结构实验之图论十一:AOE网上的关键路径
查看>>
使用SpringSocial开发QQ登录
查看>>
好玩的游戏
查看>>
2.6. Statistical Models, Supervised Learning and Function Approximation
查看>>
JS相等运算符(==)和等同运算符(===)
查看>>
代码说明call和apply方法的区别 (咱们这方面讲解的少,这样的题有变式,需要举例讲解一下)...
查看>>