引言
2019年年中开始,后面的工作内容应该有所调整。
自从16年6月底,从上海回到合肥,加入到华米科技,到现在整整3年了。
工作历程回顾
第一阶段(2016年中 - 2017年初)
基本一个人在做数据分析和报表。这段时间是快速成长的阶段:
- 独立负责数据分析工作
- 搭建数据报表体系
- 熟悉业务和数据结构
- 提升技术能力和业务理解
第二阶段(2017年初 - 2018年中)
带了一个新加入的同事A一起做数据分析和ETL等相关工作。开始从个人贡献者向团队协作者转变:
- 学习如何带领新人
- 分工协作,提高效率
- ETL流程优化
- 建立更完善的数据分析体系
第三阶段(2018年中 - 2019年中)
A去做上游的导数的事情,分析由我和新加入的B和C,两个妹子,一起来完成。同时,自己也从大数据工程师,升级成了高级大数据工程师:
- 团队规模扩大
- 工作内容更加聚焦
- 技术深度和广度都有提升
- 开始思考职业发展方向
职业转型的思考
到了19年年中, 为什么想从大数据分析,转到人工智能实验室团队去做更多的AI直接相关的事情呢?
我想主要还是想去探索数据价值发挥的一个新路径吧。毕竟,描述性的统计分析,这个我已经做了三年了。而描述性数据分析的价值有它的局限性。
而关于数据的更地道的挖掘和分析:
- 特征选取
- 建模
- 模型评估
这些都是自己的薄弱点,也是我所认为的一个合格的data scientist必须掌握的。更何况,自己在算法和机器学习这块,并非是没有基础。人生那么长,总不能一辈子做基础的描述性的统计分析/业务分析还有做报表吧。
过往的学习准备
下面列出一些以前学习过的课程和材料吧,算是对过往准备工作的一个总结。
理论基础
台大林轩田的课程
- 《机器学习基石》
- 《机器学习技巧》
- 对应的英文教材《Learning From Data》
这些课程打下了坚实的机器学习理论基础,特别是对机器学习的核心概念和算法有了深入理解。
吴恩达的课程
- 《机器学习》
- 《深度学习》
- 完成了coursera上的深度学习的几门课程
课后作业有点水,因为很多都可以通过上下文得到,但是不得不承认,是好的课后作业。
其他课程
- 周志华的西瓜书《机器学习》
- 李航的《统计学习方法》
- 《The Elements of Statistical Learning》(看了一点点)
数学基础
- 概率统计的相关知识
- 线性代数的相关知识 平时都有所复习
实践经验
工具使用
- scikit-learn:常用的机器学习算法库
- pandas:数据处理和分析
- numpy:数值计算
项目经验
1. 逻辑回归和时间序列分析
- 用逻辑回归做过探索分析
- 时间序列分析结果还在团队内部进行过分享
2. 深度学习
- 用深度学习的CNN方法做过一个图片的分类程序
- 判断照片好看是不那么好看
3. 算法验证
- 使用过算法包跑算法
- 验证算法检测结果
- 计算FN, FP, TN, TP
4. 文本处理
- 在来华米科技之前,做了三年多的防垃圾邮件工作
- 文本处理相关的原理和技术非常熟悉
当前缺乏什么
准备不少,现在缺乏啥呢?
1. 缺少对机器学习和深度学习算法的深刻理解
- 理论知识掌握不够深入
- 缺乏对算法原理的透彻理解
- 手写算法的能力不足
2. 缺少数据挖掘和更深层次的统计分析的流程认知
- 没有形成完整的分析流程
- 缺乏实战项目的经验
- 对特征工程理解不够
3. 缺乏项目经验
- 端到端的项目经验不足
- 缺乏大规模数据处理经验
- 模型部署和优化经验不够
未来的规划
基于以上的分析,我决定从数据分析转向算法团队,主要目标是:
短期目标(1-2年)
夯实理论基础
- 深入学习机器学习算法原理
- 掌握深度学习的核心概念
- 补强数学基础
积累项目经验
- 参与实际的算法项目
- 从数据采集到模型部署全流程参与
- 学习工业界的最佳实践
提升技术能力
- 学习主流的深度学习框架(TensorFlow/PyTorch)
- 掌握特征工程技术
- 学习模型评估和优化方法
中期目标(2-3年)
成为合格的算法工程师
- 能够独立完成算法项目
- 能够解决复杂的业务问题
- 能够指导新人
深入研究特定领域
- 自然语言处理或计算机视觉
- 推荐系统
- 时序预测
持续学习和成长
- 跟进前沿研究
- 参加技术会议和交流
- 发表技术文章
总结
回顾这三年的工作经历,我从入行到成长为高级大数据分析工程师,在数据分析挖掘领域积累了丰富的经验。但是,我也清醒地认识到自己的不足和需要改进的地方。
职业转型是一个重要的决定,也是一次挑战。我相信,凭借扎实的理论基础和丰富的实践经验,加上持续学习的态度,我一定能够在算法领域取得新的成就。
希望一切都好,毕竟我才30岁。
学习是一辈子的事情,只要保持好奇心和学习热情,任何时候开始都不晚。
