引言

2019年年中开始,后面的工作内容应该有所调整。

自从16年6月底,从上海回到合肥,加入到华米科技,到现在整整3年了。

工作历程回顾

第一阶段(2016年中 - 2017年初)

基本一个人在做数据分析和报表。这段时间是快速成长的阶段:

  • 独立负责数据分析工作
  • 搭建数据报表体系
  • 熟悉业务和数据结构
  • 提升技术能力和业务理解

第二阶段(2017年初 - 2018年中)

带了一个新加入的同事A一起做数据分析和ETL等相关工作。开始从个人贡献者向团队协作者转变:

  • 学习如何带领新人
  • 分工协作,提高效率
  • ETL流程优化
  • 建立更完善的数据分析体系

第三阶段(2018年中 - 2019年中)

A去做上游的导数的事情,分析由我和新加入的B和C,两个妹子,一起来完成。同时,自己也从大数据工程师,升级成了高级大数据工程师:

  • 团队规模扩大
  • 工作内容更加聚焦
  • 技术深度和广度都有提升
  • 开始思考职业发展方向

职业转型的思考

到了19年年中, 为什么想从大数据分析,转到人工智能实验室团队去做更多的AI直接相关的事情呢?

我想主要还是想去探索数据价值发挥的一个新路径吧。毕竟,描述性的统计分析,这个我已经做了三年了。而描述性数据分析的价值有它的局限性。

而关于数据的更地道的挖掘和分析:

  • 特征选取
  • 建模
  • 模型评估

这些都是自己的薄弱点,也是我所认为的一个合格的data scientist必须掌握的。更何况,自己在算法和机器学习这块,并非是没有基础。人生那么长,总不能一辈子做基础的描述性的统计分析/业务分析还有做报表吧。

过往的学习准备

下面列出一些以前学习过的课程和材料吧,算是对过往准备工作的一个总结。

理论基础

台大林轩田的课程

  • 《机器学习基石》
  • 《机器学习技巧》
  • 对应的英文教材《Learning From Data》

这些课程打下了坚实的机器学习理论基础,特别是对机器学习的核心概念和算法有了深入理解。

吴恩达的课程

  • 《机器学习》
  • 《深度学习》
  • 完成了coursera上的深度学习的几门课程

课后作业有点水,因为很多都可以通过上下文得到,但是不得不承认,是好的课后作业。

其他课程

  • 周志华的西瓜书《机器学习》
  • 李航的《统计学习方法》
  • 《The Elements of Statistical Learning》(看了一点点)

数学基础

  • 概率统计的相关知识
  • 线性代数的相关知识 平时都有所复习

实践经验

工具使用

  • scikit-learn:常用的机器学习算法库
  • pandas:数据处理和分析
  • numpy:数值计算

项目经验

1. 逻辑回归和时间序列分析

  • 用逻辑回归做过探索分析
  • 时间序列分析结果还在团队内部进行过分享

2. 深度学习

  • 用深度学习的CNN方法做过一个图片的分类程序
  • 判断照片好看是不那么好看

3. 算法验证

  • 使用过算法包跑算法
  • 验证算法检测结果
  • 计算FN, FP, TN, TP

4. 文本处理

  • 在来华米科技之前,做了三年多的防垃圾邮件工作
  • 文本处理相关的原理和技术非常熟悉

当前缺乏什么

准备不少,现在缺乏啥呢?

1. 缺少对机器学习和深度学习算法的深刻理解

  • 理论知识掌握不够深入
  • 缺乏对算法原理的透彻理解
  • 手写算法的能力不足

2. 缺少数据挖掘和更深层次的统计分析的流程认知

  • 没有形成完整的分析流程
  • 缺乏实战项目的经验
  • 对特征工程理解不够

3. 缺乏项目经验

  • 端到端的项目经验不足
  • 缺乏大规模数据处理经验
  • 模型部署和优化经验不够

未来的规划

基于以上的分析,我决定从数据分析转向算法团队,主要目标是:

短期目标(1-2年)

  1. 夯实理论基础

    • 深入学习机器学习算法原理
    • 掌握深度学习的核心概念
    • 补强数学基础
  2. 积累项目经验

    • 参与实际的算法项目
    • 从数据采集到模型部署全流程参与
    • 学习工业界的最佳实践
  3. 提升技术能力

    • 学习主流的深度学习框架(TensorFlow/PyTorch)
    • 掌握特征工程技术
    • 学习模型评估和优化方法

中期目标(2-3年)

  1. 成为合格的算法工程师

    • 能够独立完成算法项目
    • 能够解决复杂的业务问题
    • 能够指导新人
  2. 深入研究特定领域

    • 自然语言处理或计算机视觉
    • 推荐系统
    • 时序预测
  3. 持续学习和成长

    • 跟进前沿研究
    • 参加技术会议和交流
    • 发表技术文章

总结

回顾这三年的工作经历,我从入行到成长为高级大数据分析工程师,在数据分析挖掘领域积累了丰富的经验。但是,我也清醒地认识到自己的不足和需要改进的地方。

职业转型是一个重要的决定,也是一次挑战。我相信,凭借扎实的理论基础和丰富的实践经验,加上持续学习的态度,我一定能够在算法领域取得新的成就。

希望一切都好,毕竟我才30岁。

学习是一辈子的事情,只要保持好奇心和学习热情,任何时候开始都不晚。