数据科学 | s-ai-unix's Blog

这篇文章借了李安《十年一觉电影梦》的标题和叙事风格，翻出了自己这些年散落在各处的笔记和博客，试着把过去十多年的数据生涯梳理一遍。写作过程中大量借助于 AI——毕竟，没有 AI，我可能暂时不会愿意去写的。引言 2011年的夏天，我毕业于一所综合性大学的信息与计算科学专业。那时候还没有"数据科学"这个词，大家说得最多的是"数据挖掘"、“商业智能”。虽然啥也不会，但是还是幸运的拿到了一家在上海的一家知名美企的 offer，一家商务信息咨询公司，职位是 Database Production Analyst。那时候的我并不清楚，这一走，就是十多年的数据之路。李安在《十年一觉电影梦》里说：“我拍电影不是为了一定要怎么样，而是有一种冲动，想要说故事。“对我来说，这十年的数据工作也是如此——不是为了成为什么"数据科学家”，而是对数据本身有一种纯粹的好奇：这些数字背后，藏着什么样的故事？或者更加单纯的就是为了跟数据或者文本数据打交道。第一章：初识数据（2011-2016） 2011-2012：CRM咨询公司的启蒙这是我毕业后的第一份工作，在一家 CRM 咨询公司。我的工作主要是处理客户的数据库，为营销活动提供数据支持。那时候的技术栈很简单：SQL、Shell 脚本、还有一点 Perl。 CRM（Customer Relationship Management）：客户关系管理系统。可以想象成一个巨大的通讯录，记录了客户的所有信息——购买历史、偏好、互动记录等，帮助企业更好地理解和服务客户。数据需要清洗、去重、标准化。那时候还没有 Pandas，我都是用 Shell/Perl 写脚本处理。Perl 的哈希表（hash）非常适合做数据去重，我至今还记得那种成就感——当屏幕上打印出"Processing complete"的时候。图1：Perl时代的代码隐喻——数据如河流，脚本如堤坝，引导数据流向正确的方向。这段经历教会我一件事：数据工作的80%是脏活累活。清洗数据、处理缺失值、统一格式——这些工作不性感，但没有它们，后续的分析全是空中楼阁。 2012-2016：网络安全公司的Perl岁月 2012年，我加入一家网络安全公司，职位是 Senior Anti-Spam Engineer。虽然title不是"数据"相关，但这份工作本质上就是数据挖掘——用 Perl/Python 脚本分析邮件流量，识别垃圾邮件模式。那时候我每天要处理海量的日志数据，用 Perl 写复杂的正则表达式，从海量邮件中提取特征。我们有一个巨大的规则库，记录了各种垃圾邮件的特征：发件人域名、邮件内容关键词、发送频率模式等。这段经历让我深刻理解了特征工程的重要性。在机器学习还不流行的年代，我们就是靠人工设计的特征来分类垃圾邮件。现在回想起来，那就是最早的"数据驱动决策”。第二章：大数据浪潮（2016-2021） 2016-2021：智能可穿戴公司的大数据时代 2016年，我加入一家专注于智能可穿戴设备的公司，是当时国内最大的智能手表手环厂商之一(可能没有之一)。这是我职业生涯的转折点——从传统的数据处理，真正进入了"大数据"时代。图2：可穿戴设备的数据洪流——从智能手表采集的心率、步数、睡眠数据，汇聚成数字健康的大江大河。这家公司有亿万台智能手表和手环在运行，每天产生海量的健康数据。我的任务包含：数据仓库建设：从零开始设计数据模型，用 Hive 构建企业级数据仓库，负责 ETL pipeline 的开发和维护数据分析平台：引入并搭建 Superset 可视化报表平台，为产品、运营、市场团队提供自助分析能力业务数据分析：围绕用户行为、设备健康数据（心率、步数、睡眠）做描述性分析和探索性分析，支撑产品决策机器学习探索：用逻辑回归和时间序列分析做过探索性分析，并在团队内部做过分享；用 CNN 做过图片分类的实验项目团队协作和管理：从一个人单打独斗，到带着两三个同事一起做分析和 ETL，逐步建立起团队的数据工作流那时候我最喜欢的技术栈是 Shell + SQL + Python + PySpark + Excel。记得有一次，要分析用户的睡眠质量，需要处理数 TB 的夜间心率数据。用 PySpark 写分布式计算任务，在集群上跑几个小时，最终提炼出有价值的洞察——那种感觉，就像是在沙漠里挖到了水源。 ...