十年一觉数据科学梦

这篇文章借了李安《十年一觉电影梦》的标题和叙事风格，翻出了自己这些年散落在各处的笔记和博客，试着把过去十多年的数据生涯梳理一遍。写作过程中大量借助于 AI——毕竟，没有 AI，我可能暂时不会愿意去写的。

引言

2011年的夏天，我毕业于一所综合性大学的信息与计算科学专业。那时候还没有"数据科学"这个词，大家说得最多的是"数据挖掘"、“商业智能”。虽然啥也不会，但是还是幸运的拿到了一家在上海的一家知名美企的 offer，一家商务信息咨询公司，职位是 Database Production Analyst。

那时候的我并不清楚，这一走，就是十多年的数据之路。

李安在《十年一觉电影梦》里说：“我拍电影不是为了一定要怎么样，而是有一种冲动，想要说故事。“对我来说，这十年的数据工作也是如此——不是为了成为什么"数据科学家”，而是对数据本身有一种纯粹的好奇：这些数字背后，藏着什么样的故事？或者更加单纯的就是为了跟数据或者文本数据打交道。

第一章：初识数据（2011-2016）

2011-2012：CRM咨询公司的启蒙

这是我毕业后的第一份工作，在一家 CRM 咨询公司。我的工作主要是处理客户的数据库，为营销活动提供数据支持。那时候的技术栈很简单：SQL、Shell 脚本、还有一点 Perl。

CRM（Customer Relationship Management）：客户关系管理系统。可以想象成一个巨大的通讯录，记录了客户的所有信息——购买历史、偏好、互动记录等，帮助企业更好地理解和服务客户。

数据需要清洗、去重、标准化。那时候还没有 Pandas，我都是用 Shell/Perl 写脚本处理。Perl 的哈希表（hash）非常适合做数据去重，我至今还记得那种成就感——当屏幕上打印出"Processing complete"的时候。

Perl时代的代码隐喻

图1：Perl时代的代码隐喻——数据如河流，脚本如堤坝，引导数据流向正确的方向。

这段经历教会我一件事：数据工作的80%是脏活累活。清洗数据、处理缺失值、统一格式——这些工作不性感，但没有它们，后续的分析全是空中楼阁。

2012-2016：网络安全公司的Perl岁月

2012年，我加入一家网络安全公司，职位是 Senior Anti-Spam Engineer。虽然title不是"数据"相关，但这份工作本质上就是数据挖掘——用 Perl/Python 脚本分析邮件流量，识别垃圾邮件模式。

那时候我每天要处理海量的日志数据，用 Perl 写复杂的正则表达式，从海量邮件中提取特征。我们有一个巨大的规则库，记录了各种垃圾邮件的特征：发件人域名、邮件内容关键词、发送频率模式等。

这段经历让我深刻理解了特征工程的重要性。在机器学习还不流行的年代，我们就是靠人工设计的特征来分类垃圾邮件。现在回想起来，那就是最早的"数据驱动决策”。

第二章：大数据浪潮（2016-2021）

2016-2021：智能可穿戴公司的大数据时代

2016年，我加入一家专注于智能可穿戴设备的公司，是当时国内最大的智能手表手环厂商之一(可能没有之一)。这是我职业生涯的转折点——从传统的数据处理，真正进入了"大数据"时代。

可穿戴设备数据流

图2：可穿戴设备的数据洪流——从智能手表采集的心率、步数、睡眠数据，汇聚成数字健康的大江大河。

这家公司有亿万台智能手表和手环在运行，每天产生海量的健康数据。我的任务包含：

数据仓库建设：从零开始设计数据模型，用 Hive 构建企业级数据仓库，负责 ETL pipeline 的开发和维护
数据分析平台：引入并搭建 Superset 可视化报表平台，为产品、运营、市场团队提供自助分析能力
业务数据分析：围绕用户行为、设备健康数据（心率、步数、睡眠）做描述性分析和探索性分析，支撑产品决策
机器学习探索：用逻辑回归和时间序列分析做过探索性分析，并在团队内部做过分享；用 CNN 做过图片分类的实验项目
团队协作和管理：从一个人单打独斗，到带着两三个同事一起做分析和 ETL，逐步建立起团队的数据工作流

那时候我最喜欢的技术栈是 Shell + SQL + Python + PySpark + Excel。记得有一次，要分析用户的睡眠质量，需要处理数 TB 的夜间心率数据。用 PySpark 写分布式计算任务，在集群上跑几个小时，最终提炼出有价值的洞察——那种感觉，就像是在沙漠里挖到了水源。

但做了三年多的描述性统计分析之后，我开始感到一种瓶颈。2019年年中，我在博客里写道：“人生那么长，总不能一辈子做基础的描述性统计分析/业务分析还有做报表吧。"——这句话，成了我后来转型的起点。

ETL（Extract-Transform-Load）：数据抽取、转换、加载的过程。可以想象成炼油厂：原油从油井抽出（Extract），经过分馏、裂化等工艺处理（Transform），最终变成汽油、柴油等产品存入油库（Load）。

这段时期，我深刻认识到工具的重要性。Perl 时代，我只能处理单机上的数据；到了 Spark 时代，我可以驾驭集群级别的计算。工具的进步，让我的数据工作能力呈指数级增长。

第三章：理论深化（2020-2023）

2020-2025：在职读研的苦与乐（概率论与数理统计）

2020年，疫情期间，我在一所知名高校，读概率论与数理统计硕士（在职）。这是我人生中最忙碌的几年——白天做数据分析，晚上和周末上课、写作业。

数学与算法的交响

图3：数学与算法的交响——概率分布、统计推断、机器学习算法，在抽象的几何空间中交织共舞。

读研的初衷很单纯：我想搞清楚机器学习背后的数学。第一个学期学《概率论》，我才发现自己以前对"概率"的理解有多浅薄。

贝叶斯定理：描述条件概率之间的关系。可以想象成你在做判断时，会根据新信息不断修正自己的信念。比如你觉得今天有30%概率下雨，但看到窗外乌云密布，你会把这个概率修正到80%。

贝叶斯公式

这个公式看起来简单，但它的哲学意味深长：我们的认知是动态更新的，随着证据的累积，信念会不断修正。这恰恰是数据工作的本质——从数据中提取证据，不断修正我们对世界的认知。

除了概率论，我还学了数理统计、随机过程、回归分析。每门课都像是一扇窗，让我看到数据工作的不同侧面。我逐渐明白：数据科学不仅是工具和技术，更是一种思维方式——用数据说话，用量化决策。

2022-2023：手机厂商的实践与沉淀

2022年，我加入一家头部手机厂商，职位是 Staff Data Analytical Engineer。这家公司的数据基础设施已经很成熟，我的工作更多的是方法论沉淀和数据产品化。

这段时间，我主要负责：

A/B测试平台：设计和评估产品实验，用统计方法确保结论可靠
用户增长分析：构建漏斗模型、留存分析，为产品决策提供数据支持
数据质量管理：建立数据质量监控体系，确保"垃圾进、垃圾出"不会发生

我也要指导 junior 数据分析师。跟他们说：“不要只关注工具和算法，要多问’为什么’——为什么这个指标重要？为什么那个模型有效？数据工作的价值不在代码，而在洞察。”

第四章：AI时代降临（2023-至今）

2023-2024：汽车厂商与智能座舱

2023年，我加入一家自主品牌汽车厂商，担任 Principal Product Planning Engineer，负责智能座舱的 AI 产品。这是我职业生涯的一次跨界——从数据工作，转向产品定义和 AI 产品。

AI智能座舱的愿景

图4：AI智能座舱——大语言模型、知识图谱、多模态交互，让汽车成为智能的移动空间。

这时候，ChatGPT 已经火了，大语言模型（LLM）席卷整个行业。我的任务是：如何将 LLM 应用到智能座舱中？如何让汽车"理解"驾驶员的需求？

LLM（Large Language Model）：大型语言模型，比如 ChatGPT。可以想象成一个读遍了整个互联网的"超级大脑”，能理解自然语言，能回答问题，甚至能写代码。

我开始接触知识图谱、Prompt Engineering、RAG（Retrieval-Augmented Generation）等新技术。我发现，这些技术的本质，还是数据工作——只不过数据从结构化的表格，变成了非结构化的文本；工具从 SQL/Python，变成了 LLM API。

这段经历让我意识到：AI 不是数据工作的终结，而是数据工作的延续和升级。传统的数据工作（ETL、分析、可视化）依然重要，但现在我们有了更强大的工具——LLM。

AI时代的反思

站在2026年年初的节点回望，我发现数据工作正在发生深刻的变化：

工具的平民化：以前写 SQL、Python 才能做数据分析，现在用自然语言就能问 ChatGPT “帮我分析一下销售趋势”。技术门槛降低了，但思考的门槛没有降低——你仍然要知道问什么问题，如何解读结果。
数据的非结构化：以前我们处理的是表格数据（Excel、数据库），现在更多是文本、图像、视频。这意味着传统的数据分析方法（回归、分类）需要升级。
从分析到生成：以前数据工作主要是"分析过去"（描述性分析、诊断性分析），现在 LLM 让我们能够"生成未来"（预测性分析、生成式AI）。
数据产品化：数据不再只是 Report 和 Dashboard，而是变成了产品功能——比如推荐系统、智能客服、自动驾驶。数据工作的价值直接体现在用户体验上。

第五章：反思与展望

十年得失

回顾这十多年的数据工作，我有几点感悟：

① 数据工作的本质是"讲故事"：数据本身是冰冷的数字，只有通过分析，才能讲出背后的故事。优秀的 Data Scientist 既是技术专家，也是讲故事的人。

② 工具在变，方法不变：从 Perl 到 Python，从单机到 Spark，从统计分析到深度学习，工具在快速演进。但核心方法——提出假设、收集数据、验证结论——几十年来没有变化。

③ 理论很重要，但实践经验更重要：真正解决问题的能力，可能学校里得来的占比并没有那么大，更多还是来自十多年踩坑的经验。数据工作是一门"手艺"，需要动手，需要积累。

④ 好奇心是最好的老师：对数据如此，对产品如此，对 AI 也是如此。

未来的数据之路

图5：未来的数据之路——AI、大数据、人类智慧，在技术的大道上交汇融合。

未来的方向

站在AI时代的门槛上，对未来的数据工作做出几点肤浅的展望：

① “数据工程师"和"数据科学家"的边界会模糊：随着 AI 工具的平民化，传统的"写 SQL 的数据工程师"和"写模型的数据科学家"可能会融合，变成"AI 工程师”——懂工程，懂算法，懂分析，懂业务。

② 数据工作会更"产品化"：数据不再只是后端的支撑，而是前端的产品功能。未来的 Data Scientist 需要更懂产品设计、用户体验。

③ “软技能"会变得更重要：当 AI 能帮你写代码、跑分析时，问对问题、沟通洞察、驱动决策这些"软技能"会成为核心竞争力。

④ 终身学习是唯一出路：这个领域变化太快了——我刚学会 Spark，Flink 就火了；我刚熟悉 TensorFlow，PyTorch 就成主流了。唯一不变的，就是变化本身。

结语

李安在《十年一觉电影梦》的结尾写道：“我还在学习，还在成长，电影对我来说，永远是未完成的。”

数据科学对我来说，也是如此。

这十多年，我从 Perl/Python 小白到 AI 实践者，从单机处理到分布式计算，从统计分析到 AI 产品。经历了很多技术浪潮，也踩了很多坑。但最珍贵的，不是掌握了多少工具和数据工作的技能，而是保持了对数据的好奇，保持了对真理的追求。

AI 时代来了，有人焦虑会被替代，有人兴奋地拥抱变化。我的态度是：不要被工具定义，要被问题定义。问自己——我想解决什么问题？数据如何帮助我解决问题？至于用什么工具，那是次要的。

十年一觉数据梦，梦醒时分，再出发。

BTW，如果你也在数据这条路上，欢迎和我交流。毕竟，数据工作最珍贵的，不是代码和算法，而是同行的人。

Play with data and have fun!

参考资料

李安，《十年一觉电影梦》
Hadley Wickham，“R for Data Science”
吴军，《数学之美》
Trevor Hastie 等，“The Elements of Statistical Learning”

引言#

第一章：初识数据（2011-2016）#

2011-2012：CRM咨询公司的启蒙#

2012-2016：网络安全公司的Perl岁月#

第二章：大数据浪潮（2016-2021）#

2016-2021：智能可穿戴公司的大数据时代#

第三章：理论深化（2020-2023）#

2020-2025：在职读研的苦与乐（概率论与数理统计）#

2022-2023：手机厂商的实践与沉淀#

第四章：AI时代降临（2023-至今）#

2023-2024：汽车厂商与智能座舱#

AI时代的反思#

第五章：反思与展望#

十年得失#

未来的方向#

结语#

参考资料#

引言