前面我们花了大量的篇幅给大家阐述了方案设计阶段的举措和模型构建思路,包括利用头脑风暴法收集创新点、对数据按不同维度进行盘点、创建数据服务画布等。这些设计举措都是为了能让产品架构更加新颖和完整,为后续的实施铺垫。那么最后环节,便是本期所要介绍的如何提出需求和对应的方案计划。
一、数据需求文档
1. 什么是数据需求文档?
撰写数据需求文档是数据产品经理工作中一项日常任务,在这简单的任务文档背后也存在值得注意的地方。
数据需求文档英文全称Data Requirements Document,它和我们需求文档PRD如出一辙,都是作为研发团队沟通的一种凭借。只不过DRD更偏向数据类型的产品,所以DRD的出现是为了便于管理当前数据埋点的状态和逻辑迭代的详细描述,也是建立企业数值化体系的基础。
生为数据产品经理,那么日常需求中肯定都会做过埋点相关工作,当面对埋点需求时,我们就需要通过数据需求文档明确数据的需求,以及高效的同研发人员沟通具体实施细节及实现结果,并且在后续的功能迭代和工作交接过程中,数据需求文档更显得重要。
上述提到了两点,一个是对数据产品经理的要求,一个对业务目标的要求。一方面数据产品经理其实和产品经理一样,承担了产品规划、设计、整体项目推进、产品运营推广等工作。另一方面,数据产品经理和产品经理又稍有不同,数据产品经理需要额外懂得数据分析、常用数据库语言等技术内容。
对于数据产品经理来说,其能力要求便是产品经理的思维加上数据分析能力。既然如此,日常的产品需求和数据结合便是我们刚才提到的数据产品需求说明文档。数据产品需求说明文档,是数据产品项目经由产品经理的概念化阶段进入到具体的图纸流程化阶段的主要的文档资料。这是产品需求的具体描述,其包含了需求背景、业务目的、痛点价值、产品架构、功能模块、业务流程、数据要求等。
总的来说,和我们产品经理日常的需求文档一样,只不过会多出数据说明模块。
所以,数据产品需求说明文档是产品需求说明文档和数据需求说明文档相结合的产物。
2. 如何写一份高质量的DRD文档?
首先要明确数据需求。只有从业务角度本身出发,才能够更好的满足业务所需的信息和数据。对于埋点需求来说,只能需求清晰明确了,才能够合理设计埋点采集方案的指标定义。
对于DRD中想要达成的目标来看,数据是判断目标是否达成的关键要素,也是服务上一代迭代后的效果衡量依据。通过定义好的指标,再围绕其进行架构设计和功能模块就可以完成我们的DRD文档了。
简单来说,DRD在基础规范上需要包括以下两个要点:
1)全面性:描述尽可能地细致,横向考虑各个细节功能点,纵向考虑链路流程以及异常情况,让使用者在脑海中能更好地还原产品画面。
2)可读性强:结构完整,内容清晰。通过清晰的编号和结构,让使用者的阅读性更强,语言专业,简明扼要,逻辑性强。
3. 数据需求文档包括哪些模块?
下面结合具体实例说一下一份出色的数据需求说明文档包括哪些内容。
1)明确需求定义指标
通过业务需求拆分出的核心数据指标。在定义指标之前需要了解产品结构、用户行为等来明确分析的范围。
以到期理财资金流出外行预测模型为例。
数据需求:通过埋点采集产品模块和用户行为,分析用户使用产品的情况和行为偏好以及流失原因。
指标类别:
报表指标:新增、日活、月活、注册、停留时长、留存等。这些通常是业务日常观测的核心数据指标,一般作为报表的常规指标进行统计观察。
营销指标:首页曝光、推广位曝光、点击、购买、转化等营销板块数据指标。
产品生命周期指标:留存、7日留存、月留存、成本等。
运营指标:会员新增、会员活跃、累计、续费等指标。
产品功能指标:导航栏、点击、窗口点击和转化等指标。
报表指标:新增、日活、月活、注册、停留时长、留存等。这些通常是业务日常观测的核心数据指标,一般作为报表的常规指标进行统计观察。
营销指标:首页曝光、推广位曝光、点击、购买、转化等营销板块数据指标。
产品生命周期指标:留存、7日留存、月留存、成本等。
运营指标:会员新增、会员活跃、累计、续费等指标。
产品功能指标:导航栏、点击、窗口点击和转化等指标。
常用指标类别确定了我们需要分析的数据指标,例如:
AUM大于XX
核心产品渗透率大于XX
观察期开始时间节点时持有XX理财产品大于XX
确定好之后,我们就可以进行后续的需求设计了。
4. 数据需求分类
数据产品经理工作内容上从上层到下层数据采集到上层数据应用,可分为数据埋点方向、BI分析方向、用户画像方向。对应的需求文档分别是:
埋点数据需求文档,偏向于埋点事件的设计描述。
指标数据需求文档,偏向于对指标、数据逻辑、属性维度的描述。
标签数据需求文档,偏向于对标签的含义、取数逻辑的描述。
5. 埋点事件设计
埋点事件主要从两方面进行事件设计,一个是锁定核心要分析的页面所产生的行为数据,一个是锁定核心功能产生的行为数据。
页面事件就是页面上的各模块内容以及这些内容在页面上所产生的点击、浏览等行为。
功能事件就是页面的各种功能实现,比如搜索、登录、注册、下单、缴费、扫码等,这些功能的入口、点击和完成行为。
6. 如何定义指标属性
每个事件都有其对应的事件属性来说明该事件具体分析的维度。属性可分为通用属性和具体属性。通用属性例如:版本、设备、网络、IP等。具体属性例如:各事件的来源、各页面加载时长、各内容的位置、各内容的ID等。
埋点设计时需要进行采集这些事件的属性和参数用来分析。事件属性维度的拆解可以仿照4W1H(who、when、what、where、how)的方法去进行思考避免遗漏。
通常的页面时间的属性参数会涉及到事件的来源位置、页面曝光时长、页面上曝光的内容、内容ID、内容类型、有无图片等。
功能按钮在进行点击时,需要对事件属性进行设计,一般只需要监控按钮点击数即可,不需要对其他背后的属性进行说明,例如扫一扫、Banne点击等。而且有的时候可以把按钮所属的页面作为一个事件,把各个按钮名称作为参数,去设计埋点方案。
采集数据的过程就是在确定产品范围内找到用户的点击、曝光、完成等系列行为,最后针对各个行为进行属性和维度的细分描述。这样数据文档就保证了数据和逻辑的高质量性。
这一方法论不仅适用于埋点方案设计时也适用于在其他所有地方和场景中做产品方案设计时。
7. 如何定义目标变量
我们还是以到期理财资金流出外行预测模型为例。目标变量数据文档主要包含:
1)标签主题:标签主题一般按照分析对象划分,比如电商中的消费者、商家、商品等属于对象,不同主题下对象划分的标签类别是不一样。
2)标签类别:主要是看标签的类别属性,比如基础信息还是统计信息。
3)标签名称:比如我们这里的AUM指标。
4)标签值:标签的枚举值,比如百分比。
5)数据类型:分类型、连续型标签。通常会根据数据本身的属性进行定义。此项一般由数据开发人员进行填写。
6)标签含义:标签含义由业务专家进行定义,是指向性的指标。
7)标签计算逻辑:计算逻辑由数据仓库开发或者算法工程师填写,从技术角度描述标签是如何一步步得出的。
8)依赖数据表和字段:产品经理需列出标签所需的依赖关系数据表和字段,方便数据开发人员编写逻辑。所以产品经理需要对底层的数据表和业务字段较为熟悉,最好能和业务专家一起整合梳理。
综上来看,产品经理需要通过业务语言,将标签的业务含义和计算规则描述清楚,并由研发人员进行评估和增强标签的置信度。
其中适用场景和业务决定是否设置和定义该标签。如“AUM”标签,表示该机构当前管理客户资产的总市值。
统计AUM标签是很简单直接的方式,优点是能灵活制定规则,例如“理财产品到期后七日内,AUM下降>XX%或者AUM下降百分比>XX%”,且规则简单。但是还需要注意的是,量化的标签值往往没有明确的业务策略,以至于这个标签开发出来没人用。所以产品经理需要进一步思考,基于这个场景,标签是否还有其他更好的逻辑和实现方案。
8. 取数窗口设置
数据加工流程:确定建模样本、样本外方案样本、未来的应用样本以及明确标签(Y)和制定标签的数据。
前面我们已经对标签设计进行了说明,他们接下来就要从数据加工流程将各维度、标签、样本组合到一起。
1)静态数据:也被称为属性数据,数量极少,往往有主观判断;
2)动态数据(时点):也被称为状态数据,是流量数据累积的结果;
3)动态数据(期间):也被称为流量数据、行为数据,一般只能拿到公司内部的数据。
-
观察期:代表的是决策的时候已知的信息,位于时间轴左侧,主要是用
生成用户特征的时间区间,即用来确定X自变量。观察期的长短会因模型和
业务需求不同而异,如以到期理财资金流出外行预测模型为例,一般在3个
月以上。
-
观察点:观察点不是一个具体的时间点,而是一个时间段,表示的是历史
数据观测的时间,用来搜集用来建模的观测样本 ,在该时间段的历史数据
资料是我们用来建模的样本。
-
表现期:用来定义标签值的时间区段,即用来确定Y标签,其代表的是决策
时未知的但对决策效果非常重要而需要预测的信息;表现期的长短因模型
和业务需求不同而异。
观察期:代表的是决策的时候已知的信息,位于时间轴左侧,主要是用
生成用户特征的时间区间,即用来确定X自变量。观察期的长短会因模型和
业务需求不同而异,如以到期理财资金流出外行预测模型为例,一般在3个
月以上。
观察点:观察点不是一个具体的时间点,而是一个时间段,表示的是历史
数据观测的时间,用来搜集用来建模的观测样本 ,在该时间段的历史数据
资料是我们用来建模的样本。
表现期:用来定义标签值的时间区段,即用来确定Y标签,其代表的是决策
时未知的但对决策效果非常重要而需要预测的信息;表现期的长短因模型
和业务需求不同而异。
9. 特征分析
我们要对理财资金流出外行预测模型进行特征分析,就需要首先了解理财产品的特点。
客户信息的收集主要用于客户分析,客户分析的目标是找到一个单一准确的视角来制定策略,从而最优化的获取和保留客户,定义高价值客户。
•描述信息:客户的基本属性信息,包括人口统计学的信息诸如性别,年
龄,地理位置和收入;也包括自我描述类信息,对于产品的偏好和评价信
息。从这些数据中可以细分出关于客户的有用的特征和分类,例如早期采
用者(在产品介绍期和成长期采用新产品,对后面的采用者影响很大),性
价比追求者或特定的顾客角色。这些信息可以来自买卖信息,注册记录,
调查,回访,情景访谈。这类信息一般易采集,但是质量难以保证。
•行为信息:客户的行为信息,即客户在使用产品和服务的时候表现出来的
一般的模式;包括购买行为,注册,浏览以及使用不同的设备等。例如经
调查发现一些特定产品分类 (消费性电子产品、家具)的顾客,晚上倾向于
使用平板电脑购买,而白天倾向于使用台式机购买。行为信息的特点在于
实时采集,需要整合汇总。
•交互信息:客户和网站的交互信息,包含网站或者软件的点击信息,导航
路径以及浏览行为。主要用途在于网站或软件实用性能测试,例如通过模
拟真实的交互得到点击间隔对应的等级。收集数据的途径有:A/B测试,
谷歌分析师(Google Analytics),实验室收集等。
•态度信息:客户偏感性的信息,例如偏好、选择、愿望、品牌认可度及情
怀等;可以通过调查问卷,特定关注群体的调查以及使用性测试等获得。
一些知名的调查问卷公司常用来量化行为和交互信息对态度信息的影响。
这些态度可能会影响描述信息中的量化的某些自我描述信息。
这里就不得不提到生命周期管理,不管是客户还是产品,我们在进行特征选择和分析时,都离不开生命周期的不同阶段的关系分析。
客户生命周期(customer life cycle)的概念来自客户关系管理(CRM:Customer Relationship Management)的实践中,用来描述客户在接受不同产品或者服务的时候所要经历的阶段。包括考虑阶段,购买阶段,购买后的行为阶段(这个阶段会引入客户持久度、忠诚度以及拥护度等概念)。
顾客终身价值(CLV:Customer Lifetime Value)的概念,是指客户在未来整个客户生命周期中产生的总价值,CLV可以作为衡量客户关系水平的一个指标。
顾客在不同的阶段会产生不同的价值,转化期之前企业投入营销成本,顾客产生的价值是负的,随着顾客和企业关系的稳固和成熟,产生的价值越来越多,也就是说越晚流失客户对于一个企业来说产生的损失越少。所以企业应该关注选取适当客户,减少客户的流失率,采取保留客户的策略以及交叉销售的策略。同样的在保留/放弃阶段企业应该对客户做出选择性保留,以达到收益最大化。
接下来就是对标签进行划分,上图我们用到的是树状分级结构来划分标签的主题,以及标签所属的类别,简而言之,也可以理解为划分标签的一级分类、二级分类。为什么要做这样的划分呢?
这里的细分过程可以采用MECE分析法,它是指“相互独立,完全穷尽”。也就是对于一个重大的议题,能够做到不重叠、不遗漏的分类,而且能够借此有效把握问题的核心,并解决问题的方法。
MECE分析法是把一个工作项目分解为若干个更细的工作任务的方法。它主要有两条原则:
完整性,说的是分解工作的过程中不要漏掉某项,要保证完整性;
独立性,强调了每项工作之间要独立,每项工作之间不要有交叉重叠。
在分析事实、创建假设都贯穿着MECE的思维准则。结构化思维需要对问题的思考更完整、更有条理。但结构化的思维并不意味着对问题机械、简单地肢解。结构化的思维在于理清思路,而不是否认事物之间的相互联系。
如上图,我们按照客户和产品维度进行分类,然后再对客户和产品维度下的各特征属性进行细分,利用我们刚才提到的客户关系管理的内容,就属性进行不重复不遗漏的枚举,如下参考:
1)客户特征
人口及家庭:性别、年龄、星座、婚姻、家庭规模、子女年龄
社会经济状况:职业、职级、学历、收入、当前资产规模、城市级别、房产、汽车档次、小区档次
账户及产品信息:我行账龄、产品持有个数、产品持有种类/金额
客户分层:客户层级、风评等级
过往投资历史:
在我行理财账龄
过去一至两年购买理财产品次数、总金额、平均金额
过去一至两年购买基金/保险/国债/贵金属等产品次数、金额
历史理财到期后一周承接率
历史理财到期后平均承接时间
历史投资收益:
历史购买理财产品平均收益率
历史购买理财产品的预期收益率与实际收益率差距
历史收益率达到X.X%以上的理财产品金额占比
历史购买基金平均收益率
近三个月基金账户是否有亏损
近期账户交易:
近3\6\12个月超过月均AUM 20%的转入\转出次数
近30天最大转账(转入/转出)金额
近30天储蓄/理财/基金账户规模增长率
近30天储蓄/理财/基金账户规模波动率
交易信息:
近30天是否有大额交易(买车、买房、婚庆相关)
近六个月月均支出\转入金额
近三\六个月支出\转入增长率
近三\六个月支出\转入波动率
近三\六个月账户余额波动率
近三\六个月支出\转入最大值
近三\六个月支出\转入最小值
近三\六个月账户余额最大值
近三\六个月账户余额最小值
近三月同名他行账户资金交易次数
渠道偏好:
网银交易/登录次数占比
手机银行渠道交易次数占比
电子转账交易次数占比
是否持有信用卡
信用卡使用频率
浏览产品:
近一周浏览理财产品次数
近一周浏览保险产品次数
近一周浏览其他财务产品次数
2)产品特征
收益类型:保障收益型、保本浮动、非保本浮动
运作模式:封闭非净值、封闭净值、开放式非净值、开放式净值
期限和起购金额:
产品期限结构:T+0、7天、14天、30天、180天等
产品起购金额:5万、10万、20万、100万等
到期金额和收益:
到期产品规模
到期产品规模占总AUM规模百分比
到期产品预期收益率
到期产品实际收益率
预期收益与实际收益差异
二、计划方案
1. 可行性研究
可行性研究是对拟理财或者投资项目进行多方面的调查研究和综合论证,为投资决策提供科学依据,从而保证投资项目在技术上的可靠性,经济上合理性、有利性,操作上合法性。总体来说,可行性研究报告的编制要做到重点突出、逻辑清晰、主次分明。
2. 数据准备
我们前面对数据层面的获取和探索进行很多描述。总体来说,包括获取存量客户及潜在客户的数据。存量客户是指已经在金融企业开展相关融资类业务的客户,包括个人客户和机构客户;潜在客户是指未来拟在金融企业开展相关融资类业务的客户,主要包括机构客户,如上市公司、公开发行债券的发债主体、非标融资机构等。
3. 模型研发/数据分析
主要工作包括数据清洗、特征工程、算法建模。通过统计学的方法,筛选出对标签影响最显著的指标,再通过模型进行预测分析。
4. 用户测试
根据模型验证和主标尺设计的结果,评估模型的区分能力、预测能力、稳定性、并形成测试评估报告,得到模型是否可以使用的结论。
5. 样本验证
对样本进行二次校验,保证数据源头的一致性和完整性。
6. 验收
验收项目后,也需要定期监测模型的使用情况,并关注和定期检验模型的区分能力与预测能力的变化及模型稳定性的变化,在出现模型可能不能满足业务需求的情况时,反馈至模型开发团队,及时进行模型更新或重新开发。