这篇文章借了李安《十年一觉电影梦》的标题和叙事风格,翻出了自己这些年散落在各处的笔记和博客,试着把过去十多年的数据生涯梳理一遍。写作过程中大量借助于 AI——毕竟,没有 AI, 我可能暂时不会愿意去写的。

引言

2011年的夏天,我毕业于一所综合性大学的 信息与计算科学 专业。那时候还没有"数据科学"这个词,大家说得最多的是"数据挖掘"、“商业智能”。虽然啥也不会, 但是还是幸运的拿到了一家在上海的一家知名美企的 offer,一家商务信息咨询公司,职位是 Database Production Analyst。

那时候的我并不清楚,这一走,就是十多年的数据之路。

李安在《十年一觉电影梦》里说:“我拍电影不是为了一定要怎么样,而是有一种冲动,想要说故事。“对我来说,这十年的数据工作也是如此——不是为了成为什么"数据科学家”,而是对数据本身有一种纯粹的好奇:这些数字背后,藏着什么样的故事?或者更加单纯的就是为了跟数据或者文本数据打交道。

第一章:初识数据(2011-2016)

2011-2012:CRM咨询公司的启蒙

这是我毕业后的第一份工作,在一家 CRM 咨询公司。我的工作主要是处理客户的数据库,为营销活动提供数据支持。那时候的技术栈很简单:SQL、Shell 脚本、还有一点 Perl。

CRM(Customer Relationship Management):客户关系管理系统。可以想象成一个巨大的通讯录,记录了客户的所有信息——购买历史、偏好、互动记录等,帮助企业更好地理解和服务客户。

数据需要清洗、去重、标准化。那时候还没有 Pandas,我都是用 Shell/Perl 写脚本处理。Perl 的哈希表(hash)非常适合做数据去重,我至今还记得那种成就感——当屏幕上打印出"Processing complete"的时候。

Perl时代的代码隐喻

图1:Perl时代的代码隐喻——数据如河流,脚本如堤坝,引导数据流向正确的方向。

这段经历教会我一件事:数据工作的80%是脏活累活。清洗数据、处理缺失值、统一格式——这些工作不性感,但没有它们,后续的分析全是空中楼阁。

2012-2016:网络安全公司的Perl岁月

2012年,我加入一家网络安全公司,职位是 Senior Anti-Spam Engineer。虽然title不是"数据"相关,但这份工作本质上就是数据挖掘——用 Perl/Python 脚本分析邮件流量,识别垃圾邮件模式。

那时候我每天要处理海量的日志数据,用 Perl 写复杂的正则表达式,从海量邮件中提取特征。我们有一个巨大的规则库,记录了各种垃圾邮件的特征:发件人域名、邮件内容关键词、发送频率模式等。

这段经历让我深刻理解了特征工程的重要性。在机器学习还不流行的年代,我们就是靠人工设计的特征来分类垃圾邮件。现在回想起来,那就是最早的"数据驱动决策”。

第二章:大数据浪潮(2016-2021)

2016-2021:智能可穿戴公司的大数据时代

2016年,我加入一家专注于智能可穿戴设备的公司,是当时国内最大的智能手表手环厂商之一(可能没有之一)。这是我职业生涯的转折点——从传统的数据处理,真正进入了"大数据"时代。

可穿戴设备数据流

图2:可穿戴设备的数据洪流——从智能手表采集的心率、步数、睡眠数据,汇聚成数字健康的大江大河。

这家公司有亿万台智能手表和手环在运行,每天产生海量的健康数据。我的任务包含:

  • 数据仓库建设:从零开始设计数据模型,用 Hive 构建企业级数据仓库,负责 ETL pipeline 的开发和维护
  • 数据分析平台:引入并搭建 Superset 可视化报表平台,为产品、运营、市场团队提供自助分析能力
  • 业务数据分析:围绕用户行为、设备健康数据(心率、步数、睡眠)做描述性分析和探索性分析,支撑产品决策
  • 机器学习探索:用逻辑回归和时间序列分析做过探索性分析,并在团队内部做过分享;用 CNN 做过图片分类的实验项目
  • 团队协作和管理:从一个人单打独斗,到带着两三个同事一起做分析和 ETL,逐步建立起团队的数据工作流

那时候我最喜欢的技术栈是 Shell + SQL + Python + PySpark + Excel。记得有一次,要分析用户的睡眠质量,需要处理数 TB 的夜间心率数据。用 PySpark 写分布式计算任务,在集群上跑几个小时,最终提炼出有价值的洞察——那种感觉,就像是在沙漠里挖到了水源。

但做了三年多的描述性统计分析之后,我开始感到一种瓶颈。2019年年中,我在博客里写道:“人生那么长,总不能一辈子做基础的描述性统计分析/业务分析还有做报表吧。"——这句话,成了我后来转型的起点。

ETL(Extract-Transform-Load):数据抽取、转换、加载的过程。可以想象成炼油厂:原油从油井抽出(Extract),经过分馏、裂化等工艺处理(Transform),最终变成汽油、柴油等产品存入油库(Load)。

这段时期,我深刻认识到工具的重要性。Perl 时代,我只能处理单机上的数据;到了 Spark 时代,我可以驾驭集群级别的计算。工具的进步,让我的数据工作能力呈指数级增长。

第三章:理论深化(2020-2023)

2020-2025:在职读研的苦与乐(概率论与数理统计)

2020年,疫情期间,我在一所知名高校,读概率论与数理统计硕士(在职)。这是我人生中最忙碌的几年——白天做数据分析,晚上和周末上课、写作业。

数学与算法的交响

图3:数学与算法的交响——概率分布、统计推断、机器学习算法,在抽象的几何空间中交织共舞。

读研的初衷很单纯:我想搞清楚机器学习背后的数学。第一个学期学《概率论》,我才发现自己以前对"概率"的理解有多浅薄。

贝叶斯定理:描述条件概率之间的关系。可以想象成你在做判断时,会根据新信息不断修正自己的信念。比如你觉得今天有30%概率下雨,但看到窗外乌云密布,你会把这个概率修正到80%。

贝叶斯公式

这个公式看起来简单,但它的哲学意味深长:我们的认知是动态更新的,随着证据的累积,信念会不断修正。这恰恰是数据工作的本质——从数据中提取证据,不断修正我们对世界的认知。

除了概率论,我还学了数理统计、随机过程、回归分析。每门课都像是一扇窗,让我看到数据工作的不同侧面。我逐渐明白:数据科学不仅是工具和技术,更是一种思维方式——用数据说话,用量化决策

2022-2023:手机厂商的实践与沉淀

2022年,我加入一家头部手机厂商,职位是 Staff Data Analytical Engineer。这家公司的数据基础设施已经很成熟,我的工作更多的是方法论沉淀和数据产品化

这段时间,我主要负责:

  • A/B测试平台:设计和评估产品实验,用统计方法确保结论可靠
  • 用户增长分析:构建漏斗模型、留存分析,为产品决策提供数据支持
  • 数据质量管理:建立数据质量监控体系,确保"垃圾进、垃圾出"不会发生

我也要指导 junior 数据分析师。跟他们说:“不要只关注工具和算法,要多问’为什么’——为什么这个指标重要?为什么那个模型有效?数据工作的价值不在代码,而在洞察。”

第四章:AI时代降临(2023-至今)

2023-2024:汽车厂商与智能座舱

2023年,我加入一家自主品牌汽车厂商,担任 Principal Product Planning Engineer,负责智能座舱的 AI 产品。这是我职业生涯的一次跨界——从数据工作,转向产品定义和 AI 产品。

AI智能座舱的愿景

图4:AI智能座舱——大语言模型、知识图谱、多模态交互,让汽车成为智能的移动空间。

这时候,ChatGPT 已经火了,大语言模型(LLM)席卷整个行业。我的任务是:如何将 LLM 应用到智能座舱中?如何让汽车"理解"驾驶员的需求?

LLM(Large Language Model):大型语言模型,比如 ChatGPT。可以想象成一个读遍了整个互联网的"超级大脑”,能理解自然语言,能回答问题,甚至能写代码。

我开始接触知识图谱、Prompt Engineering、RAG(Retrieval-Augmented Generation)等新技术。我发现,这些技术的本质,还是数据工作——只不过数据从结构化的表格,变成了非结构化的文本;工具从 SQL/Python,变成了 LLM API。

这段经历让我意识到:AI 不是数据工作的终结,而是数据工作的延续和升级。传统的数据工作(ETL、分析、可视化)依然重要,但现在我们有了更强大的工具——LLM。

AI时代的反思

站在2026年年初的节点回望,我发现数据工作正在发生深刻的变化:

  1. 工具的平民化:以前写 SQL、Python 才能做数据分析,现在用自然语言就能问 ChatGPT “帮我分析一下销售趋势”。技术门槛降低了,但思考的门槛没有降低——你仍然要知道问什么问题,如何解读结果。

  2. 数据的非结构化:以前我们处理的是表格数据(Excel、数据库),现在更多是文本、图像、视频。这意味着传统的数据分析方法(回归、分类)需要升级。

  3. 从分析到生成:以前数据工作主要是"分析过去"(描述性分析、诊断性分析),现在 LLM 让我们能够"生成未来"(预测性分析、生成式AI)。

  4. 数据产品化:数据不再只是 Report 和 Dashboard,而是变成了产品功能——比如推荐系统、智能客服、自动驾驶。数据工作的价值直接体现在用户体验上。

第五章:反思与展望

十年得失

回顾这十多年的数据工作,我有几点感悟:

① 数据工作的本质是"讲故事":数据本身是冰冷的数字,只有通过分析,才能讲出背后的故事。优秀的 Data Scientist 既是技术专家,也是讲故事的人。

② 工具在变,方法不变:从 Perl 到 Python,从单机到 Spark,从统计分析到深度学习,工具在快速演进。但核心方法——提出假设、收集数据、验证结论——几十年来没有变化。

③ 理论很重要,但实践经验更重要:真正解决问题的能力,可能学校里得来的占比并没有那么大,更多还是来自十多年踩坑的经验。数据工作是一门"手艺",需要动手,需要积累

④ 好奇心是最好的老师:对数据如此,对产品如此,对 AI 也是如此。

未来的数据之路

图5:未来的数据之路——AI、大数据、人类智慧,在技术的大道上交汇融合。

未来的方向

站在AI时代的门槛上,对未来的数据工作做出几点肤浅的展望:

① “数据工程师"和"数据科学家"的边界会模糊:随着 AI 工具的平民化,传统的"写 SQL 的数据工程师"和"写模型的数据科学家"可能会融合,变成"AI 工程师”——懂工程,懂算法,懂分析,懂业务。

② 数据工作会更"产品化":数据不再只是后端的支撑,而是前端的产品功能。未来的 Data Scientist 需要更懂产品设计、用户体验。

③ “软技能"会变得更重要:当 AI 能帮你写代码、跑分析时,问对问题、沟通洞察、驱动决策这些"软技能"会成为核心竞争力。

④ 终身学习是唯一出路:这个领域变化太快了——我刚学会 Spark,Flink 就火了;我刚熟悉 TensorFlow,PyTorch 就成主流了。唯一不变的,就是变化本身。

结语

李安在《十年一觉电影梦》的结尾写道:“我还在学习,还在成长,电影对我来说,永远是未完成的。”

数据科学对我来说,也是如此。

这十多年,我从 Perl/Python 小白到 AI 实践者,从单机处理到分布式计算,从统计分析到 AI 产品。经历了很多技术浪潮,也踩了很多坑。但最珍贵的,不是掌握了多少工具和数据工作的技能,而是保持了对数据的好奇,保持了对真理的追求

AI 时代来了,有人焦虑会被替代,有人兴奋地拥抱变化。我的态度是:不要被工具定义,要被问题定义。问自己——我想解决什么问题?数据如何帮助我解决问题?至于用什么工具,那是次要的。

十年一觉数据梦,梦醒时分,再出发。

BTW,如果你也在数据这条路上,欢迎和我交流。毕竟,数据工作最珍贵的,不是代码和算法,而是同行的人。

Play with data and have fun!

参考资料

  • 李安,《十年一觉电影梦》
  • Hadley Wickham,“R for Data Science”
  • 吴军,《数学之美》
  • Trevor Hastie 等,“The Elements of Statistical Learning”