十年一觉数据科学梦

十年一觉数据科学梦

这篇文章借了李安《十年一觉电影梦》的标题和叙事风格,翻出了自己这些年散落在各处的笔记和博客,试着把过去十多年的数据生涯梳理一遍。写作过程中大量借助于 AI——毕竟,没有 AI, 我可能暂时不会愿意去写的。 引言 2011年的夏天,我毕业于一所综合性大学的 信息与计算科学 专业。那时候还没有"数据科学"这个词,大家说得最多的是"数据挖掘"、“商业智能”。虽然啥也不会, 但是还是幸运的拿到了一家在上海的一家知名美企的 offer,一家商务信息咨询公司,职位是 Database Production Analyst。 那时候的我并不清楚,这一走,就是十多年的数据之路。 李安在《十年一觉电影梦》里说:“我拍电影不是为了一定要怎么样,而是有一种冲动,想要说故事。“对我来说,这十年的数据工作也是如此——不是为了成为什么"数据科学家”,而是对数据本身有一种纯粹的好奇:这些数字背后,藏着什么样的故事?或者更加单纯的就是为了跟数据或者文本数据打交道。 第一章:初识数据(2011-2016) 2011-2012:CRM咨询公司的启蒙 这是我毕业后的第一份工作,在一家 CRM 咨询公司。我的工作主要是处理客户的数据库,为营销活动提供数据支持。那时候的技术栈很简单:SQL、Shell 脚本、还有一点 Perl。 CRM(Customer Relationship Management):客户关系管理系统。可以想象成一个巨大的通讯录,记录了客户的所有信息——购买历史、偏好、互动记录等,帮助企业更好地理解和服务客户。 数据需要清洗、去重、标准化。那时候还没有 Pandas,我都是用 Shell/Perl 写脚本处理。Perl 的哈希表(hash)非常适合做数据去重,我至今还记得那种成就感——当屏幕上打印出"Processing complete"的时候。 图1:Perl时代的代码隐喻——数据如河流,脚本如堤坝,引导数据流向正确的方向。 这段经历教会我一件事:数据工作的80%是脏活累活。清洗数据、处理缺失值、统一格式——这些工作不性感,但没有它们,后续的分析全是空中楼阁。 2012-2016:网络安全公司的Perl岁月 2012年,我加入一家网络安全公司,职位是 Senior Anti-Spam Engineer。虽然title不是"数据"相关,但这份工作本质上就是数据挖掘——用 Perl/Python 脚本分析邮件流量,识别垃圾邮件模式。 那时候我每天要处理海量的日志数据,用 Perl 写复杂的正则表达式,从海量邮件中提取特征。我们有一个巨大的规则库,记录了各种垃圾邮件的特征:发件人域名、邮件内容关键词、发送频率模式等。 这段经历让我深刻理解了特征工程的重要性。在机器学习还不流行的年代,我们就是靠人工设计的特征来分类垃圾邮件。现在回想起来,那就是最早的"数据驱动决策”。 第二章:大数据浪潮(2016-2021) 2016-2021:智能可穿戴公司的大数据时代 2016年,我加入一家专注于智能可穿戴设备的公司,是当时国内最大的智能手表手环厂商之一(可能没有之一)。这是我职业生涯的转折点——从传统的数据处理,真正进入了"大数据"时代。 图2:可穿戴设备的数据洪流——从智能手表采集的心率、步数、睡眠数据,汇聚成数字健康的大江大河。 这家公司有亿万台智能手表和手环在运行,每天产生海量的健康数据。我的任务包含: 数据仓库建设:从零开始设计数据模型,用 Hive 构建企业级数据仓库,负责 ETL pipeline 的开发和维护 数据分析平台:引入并搭建 Superset 可视化报表平台,为产品、运营、市场团队提供自助分析能力 业务数据分析:围绕用户行为、设备健康数据(心率、步数、睡眠)做描述性分析和探索性分析,支撑产品决策 机器学习探索:用逻辑回归和时间序列分析做过探索性分析,并在团队内部做过分享;用 CNN 做过图片分类的实验项目 团队协作和管理:从一个人单打独斗,到带着两三个同事一起做分析和 ETL,逐步建立起团队的数据工作流 那时候我最喜欢的技术栈是 Shell + SQL + Python + PySpark + Excel。记得有一次,要分析用户的睡眠质量,需要处理数 TB 的夜间心率数据。用 PySpark 写分布式计算任务,在集群上跑几个小时,最终提炼出有价值的洞察——那种感觉,就像是在沙漠里挖到了水源。 ...

February 26, 2026 · 2 min · 228 words · s-ai-unix