AI时代的湖仓数据体系建设刘岩腾讯游戏数据技术负责人腾讯游戏数据工程的挑战基于多智能体的需求构造AI驱动的湖仓资产体系可持续优化的工程平台系统演示01腾讯游戏数据工程的挑战1.1腾讯游戏数据发展—紧跟业务发展,以业务需求为核心以数据驱动业务变革,安全合规与成本治理。3.0技术驱动创新逐步开始接入实时技术:datamore投入应用,决策对于数据时效性提出较高要求对于数据资产集中管理的进一步加强,河图数据治理平台全面升级标准数据治理体系建设:以业务应用为导向,数据管理规范3.0发布产业链布局和全面出海2015~Now数据平台演进游戏业务发展游戏发展初期,缺乏统一标准,游戏数据孤岛。从零起步一切从简,快速启动,MySQL读写分离、分库分表数据应用数据单位主要是G,数据分散在各个数据库,缺乏整体数据统计数据治理每年在游戏数量上翻翻,对接不同业务的游戏日志,标准难以统一1.0基础功能完善阶段腾讯游戏以休闲品类进入市场2003~2007外部大厂纷纷投身网游,腾讯游戏基于绕道休闲品类打造QQ系列游戏,深耕社交流量重启游戏代理,同步自主研发率先完成“端改手”移动化,全面升级自研体系打造全品类矩阵,扶持游戏厂商,建立全球化发行平台,全面出海,推动电竞职业化、游戏IP化等业务持续扩张,数据驱动成为新的价值增长。2.0平台构建阶段数据应用日志标准迭代推进,移动互联网数字化,精准分析,用户画像、买量与增长分析数据治理数据治理处于萌芽阶段,数据资产意识建立,数据管理规范1.0发布架构升级迁移到TDW数据仓库,完成数据的集中管理与统一分析以“代理+自研”后来居上2008~20141.2游戏业务对数据的需求➢现存游戏业务的数据挖掘/提取类需求数万个/年,数据挖掘是问题归因、分析决策、干预闭环的关键。业务对数据需求数据产品和服务经营分析(可视化)精细化运营(数据挖掘)辅助决策(预测)驱动业务(干预)数百个看板(框架+特性)数万个/年数据提取服务数十个算法服务数十个实时线上服务数据资产数据加工链路1%的数据表资产离线计算+数仓基于明细数据动态分层流式计算+湖仓一体特征和画像标签湖仓一体特征和画像标签流式计算+实时计算1.3如何更好地服务业务?➢AI要解决的问题不是仅仅是写SQL,而是从业务需求到数据结果的各个环节,需要建立AI环境下的工程平台和资产体系。业务需求数据结果口径对齐资产探查SQL代码实现SQL验证提交任务结果发送使用LLM进行提效对齐业务统计逻辑找到细粒度的数据表确定数据分层与业务二次对齐逻辑验证SQL准确性提交正式数据任务数据结果及提取逻辑结果和想法验证需求理解1资产体系2计算加速3持续运营402基于多智能体的需求构造2.1提示词(需求)的完备度与结果准确性《ThePromptReport:ASystematicSurveyofPromptingTechniques》https://arxiv.org/abs/2406.06608“好”提示词的特点:➢完整的上下文解释➢隐性知识➢行业know-how➢恰当的示例➢逐步思考➢明确的预期结果2.2基于“需求标准”的人与AI需求对齐需求对齐通过需求Agent,匹配需求案例和行业知识,对进行需求整理与改写,改写成标准的需求格式需求标准一个完备的SQL需求包括:“筛选”、“问题”、“结果”三段式提问,及“行业知识”统计:玩家数输出:2024.1.1-2024.2.2期间XX条件的玩家每个自然周不同周活跃天数统计周、周活跃天数、玩家数2.3根据复杂度进行需求分解2.需求复杂度=Where个数+Join个数+Union个数+GroupBy个数+OrderBy个数+Distinct个数+开窗/json等高阶函数个数根据腾讯游戏内部实际应用统计:1.需求复杂度小于等于4准确率>90%,5至7准确率>60%,大于等于8准确率<25%,复杂度大于等于15时正确率趋近于0➢把复杂需求分解成简单的子需求,降低AI生成难度,通过工程化方式组合成最终结果,确保稳定可控的交付质量。标准化需求看板资产完全满足库表资产完全满足资产匹配与推荐特征资产库表资产知识资产复杂度估算生成SQL是是<=4分解成子需求>=503AI驱动的湖仓资产体系3.1LLM在SQL生成的能力瓶颈BIRD(BIgBenchforLaRge-scaleDatabaseGroundedText-to-SQLEvaluation)代表了一个开创性的跨域数据集,用于检查广泛的数据库内容对文本到SQL解析的影...