高价值客户与产品分析方案
一、分析目标
识别高价值客户和产品(产生实际收益),识别低价值客户和产品(浪费资源但收益小),挖掘好产品好客户与不好的产品客户的特征差异,为资源优化配置提供数据支撑。
二、数据源信息
- 数据文件:
data/脱敏数据_增强版.xlsx - 数据规模: 6671行,25列
- 关键指标: "是否调用"(产生收益的关键指标)
三、分析维度
3.1 客户维度分析
分析对象: 按"客户简称"分组聚合(数据完全不去重,不允许根据主键去重)
计算指标:
- 客户总记录数(不去重,所有记录数)
- 客户调用率 = 是否调用="是"的记录数 / 总记录数
- 客户调用记录数 = 是否调用="是"的记录数(绝对数量)
- 客户签约率 = 测试阶段_已接入="是"的记录数 / 总记录数
- 客户不接入率 = 测试阶段_不接入="是"的记录数 / 总记录数
- 客户可接入但未调用数 = 测试阶段_可接入="是" 且 是否调用="否"的记录数
- 客户平均样本量(排除缺失值)
- 客户平均测试时间(申请时间到测试返回时间的平均天数,仅计算有测试返回时间的记录)
综合评分计算公式:
客户综合评分 = w1 × 调用率 + w2 × 标准化调用记录数 + w3 × 签约率
权重分配: w1 = 0.50, w2 = 0.30, w3 = 0.20
标准化方法:
- 调用率、签约率:已在[0,1]区间,无需标准化
- 调用记录数:使用Min-Max标准化,公式为 (x - min) / (max - min),映射到[0,1]范围
- 边界处理: 当max == min时(所有值相同),标准化值统一设为0.5
分类标准(按排名分类):
- 高价值客户: 按综合评分降序排列,排名前20%(使用
ceil()向上取整计算数量) - 低价值客户: 按综合评分降序排列,排名后20%(使用
ceil()向上取整计算数量) - 评分相同时,按客户简称字母顺序排序
3.2 产品维度分析
分析对象: 按"子产品名称"分组聚合(数据完全不去重)
计算指标:
- 产品总记录数(不去重,所有记录数)
- 产品调用转化率 = 是否调用="是"的记录数 / 总记录数
- 产品签约转化率 = 测试阶段_已接入="是"的记录数 / 总记录数
- 产品不接入率 = 测试阶段_不接入="是"的记录数 / 总记录数
- 产品测试中占比 = 测试阶段_测试中="是"的记录数 / 总记录数
- 产品平均样本量(排除缺失值)
- 产品平均测试时间(申请时间到测试返回时间的平均天数,仅计算有测试返回时间的记录)
综合评分计算公式:
产品综合评分 = w1 × 调用转化率 + w2 × 签约转化率 + w3 × 标准化总申请数 - w4 × 不接入率
权重分配: w1 = 0.50, w2 = 0.25, w3 = 0.15, w4 = 0.10
标准化方法:
- 调用转化率、签约转化率、不接入率:已在[0,1]区间,无需标准化
- 总申请数:使用Min-Max标准化,公式为 (x - min) / (max - min),映射到[0,1]范围
- 边界处理: 当max == min时(所有值相同),标准化值统一设为0.5
- 不接入率为负向指标(拒绝率越低越好),在公式中取负号
分类标准(按排名分类):
- 高价值产品: 按综合评分降序排列,排名前20%(使用
ceil()向上取整计算数量) - 低价值产品: 按综合评分降序排列,排名后20%(使用
ceil()向上取整计算数量) - 评分相同时,按子产品名称字母顺序排序
3.3 特征差异分析
对比方式:
- 分类型特征:计算高价值组和低价值组在各特征值上的占比(分布比例)
- 数值型特征:计算高价值组和低价值组的均值进行对比
客户特征对比维度:
- 分类型特征:客户类型分布、部门分布、销售分布、反馈结果分布、接入意向分布(计算各特征值的占比)
- 数值型特征:样本量均值、测试时间均值(申请到测试返回时间的平均时间)
产品特征对比维度:
- 分类型特征:客户类型分布、部门分布、反馈结果分布(计算各特征值的占比)
- 数值型特征:样本量均值(与客户维度保持一致)
输出格式: 统计表,包含特征维度、特征值、高价值组占比/均值、低价值组占比/均值、差异(高价值组 - 低价值组)
- 分类型特征:输出所有特征值,缺失值用"-"表示
- 数值型特征:输出均值对比,缺失值用"-"表示
四、输出结果
4.1 Excel输出格式(8个Sheet)
Sheet1: 高价值客户列表
列名:客户简称、总记录数、调用率、调用记录数、签约率、不接入率、可接入但未调用数、平均样本量、平均测试时间、综合评分、排名
Sheet2: 低价值客户列表
列名:客户简称、总记录数、调用率、调用记录数、签约率、不接入率、可接入但未调用数、平均样本量、平均测试时间、综合评分、排名
Sheet3: 高价值产品列表
列名:子产品名称、总记录数、调用转化率、签约转化率、不接入率、测试中占比、平均样本量、平均测试时间、综合评分、排名
Sheet4: 低价值产品列表
列名:子产品名称、总记录数、调用转化率、签约转化率、不接入率、测试中占比、平均样本量、平均测试时间、综合评分、排名
Sheet5: 客户特征差异统计
列名:特征维度、特征值、高价值组占比、低价值组占比、差异
Sheet6: 产品特征差异统计
列名:特征维度、特征值、高价值组占比、低价值组占比、差异
Sheet7: 客户全部排名
列名:排名、客户简称、总记录数、调用率、调用记录数、签约率、不接入率、可接入但未调用数、平均样本量、平均测试时间、综合评分
Sheet8: 产品全部排名
列名:排名、子产品名称、总记录数、调用转化率、签约转化率、不接入率、测试中占比、平均样本量、平均测试时间、综合评分
五、处理流程
- 读取数据文件
data/脱敏数据_增强版.xlsx - 数据预处理:使用
pd.to_datetime()自动识别并转换申请时间、测试返回时间为日期类型,计算测试时间(申请时间到测试返回时间),缺失值用NaN表示 - 客户维度聚合分析:按客户简称分组,计算各项指标,计算综合评分,按评分降序排列并添加排名(排名从1开始,相同评分时按客户简称字母顺序排序后连续排名)
- 产品维度聚合分析:按子产品名称分组,计算各项指标,计算综合评分,按评分降序排列并添加排名(排名从1开始,相同评分时按子产品名称字母顺序排序后连续排名)
- 分类:客户/产品按综合评分排名,使用
ceil()向上取整计算前20%为高价值,后20%为低价值 - 特征差异分析:对比高价值与低价值客户/产品的特征分布
- 分类型特征:计算各特征值在高价值组和低价值组中的占比,输出所有特征值(缺失值用"-"表示)
- 数值型特征:计算高价值组和低价值组的均值进行对比(缺失值用"-"表示)
- 生成分析结果:输出Excel文件(8个sheet)到
分析结果/高价值客户产品分析结果.xlsx
六、注意事项
- 数据完整性: 数据完全不去重,保留所有原始记录,不允许根据主键去重
- 时间字段处理: 使用
pd.to_datetime()自动识别日期格式,计算测试时间(申请时间到测试返回时间),缺失值用NaN表示(测试返回时间为空仅代表还在测试中) - 缺失值处理: 样本量缺失值在计算平均值时排除,不影响分组统计;特征差异分析中缺失值用"-"表示
- 标准化边界: 当max == min时,标准化值统一设为0.5
- 排名计算: 综合评分计算完成后,按降序排列,排名从1开始;评分相同时按名称字母顺序排序后连续排名(不并列);使用
ceil()向上取整计算前20%为高价值,后20%为低价值 - 文件输出路径: 脚本文件保存到
执行脚本/目录下,分析结果Excel文件保存到分析结果/目录下,文件名为高价值客户产品分析结果.xlsx
本方案用于识别高价值客户和产品,优化资源配置