高价值客户与产品分析方案

一、分析目标

识别高价值客户和产品(产生实际收益),识别低价值客户和产品(浪费资源但收益小),挖掘好产品好客户与不好的产品客户的特征差异,为资源优化配置提供数据支撑。

二、数据源信息

三、分析维度

3.1 客户维度分析

分析对象: 按"客户简称"分组聚合(数据完全不去重,不允许根据主键去重)

计算指标:

  1. 客户总记录数(不去重,所有记录数)
  2. 客户调用率 = 是否调用="是"的记录数 / 总记录数
  3. 客户调用记录数 = 是否调用="是"的记录数(绝对数量)
  4. 客户签约率 = 测试阶段_已接入="是"的记录数 / 总记录数
  5. 客户不接入率 = 测试阶段_不接入="是"的记录数 / 总记录数
  6. 客户可接入但未调用数 = 测试阶段_可接入="是" 且 是否调用="否"的记录数
  7. 客户平均样本量(排除缺失值)
  8. 客户平均测试时间(申请时间到测试返回时间的平均天数,仅计算有测试返回时间的记录)

综合评分计算公式:

客户综合评分 = w1 × 调用率 + w2 × 标准化调用记录数 + w3 × 签约率

权重分配: w1 = 0.50, w2 = 0.30, w3 = 0.20

标准化方法:

分类标准(按排名分类):

3.2 产品维度分析

分析对象: 按"子产品名称"分组聚合(数据完全不去重)

计算指标:

  1. 产品总记录数(不去重,所有记录数)
  2. 产品调用转化率 = 是否调用="是"的记录数 / 总记录数
  3. 产品签约转化率 = 测试阶段_已接入="是"的记录数 / 总记录数
  4. 产品不接入率 = 测试阶段_不接入="是"的记录数 / 总记录数
  5. 产品测试中占比 = 测试阶段_测试中="是"的记录数 / 总记录数
  6. 产品平均样本量(排除缺失值)
  7. 产品平均测试时间(申请时间到测试返回时间的平均天数,仅计算有测试返回时间的记录)

综合评分计算公式:

产品综合评分 = w1 × 调用转化率 + w2 × 签约转化率 + w3 × 标准化总申请数 - w4 × 不接入率

权重分配: w1 = 0.50, w2 = 0.25, w3 = 0.15, w4 = 0.10

标准化方法:

分类标准(按排名分类):

3.3 特征差异分析

对比方式:

客户特征对比维度:

产品特征对比维度:

输出格式: 统计表,包含特征维度、特征值、高价值组占比/均值、低价值组占比/均值、差异(高价值组 - 低价值组)

四、输出结果

4.1 Excel输出格式(8个Sheet)

Sheet1: 高价值客户列表
列名:客户简称、总记录数、调用率、调用记录数、签约率、不接入率、可接入但未调用数、平均样本量、平均测试时间、综合评分、排名

Sheet2: 低价值客户列表
列名:客户简称、总记录数、调用率、调用记录数、签约率、不接入率、可接入但未调用数、平均样本量、平均测试时间、综合评分、排名

Sheet3: 高价值产品列表
列名:子产品名称、总记录数、调用转化率、签约转化率、不接入率、测试中占比、平均样本量、平均测试时间、综合评分、排名

Sheet4: 低价值产品列表
列名:子产品名称、总记录数、调用转化率、签约转化率、不接入率、测试中占比、平均样本量、平均测试时间、综合评分、排名

Sheet5: 客户特征差异统计
列名:特征维度、特征值、高价值组占比、低价值组占比、差异

Sheet6: 产品特征差异统计
列名:特征维度、特征值、高价值组占比、低价值组占比、差异

Sheet7: 客户全部排名
列名:排名、客户简称、总记录数、调用率、调用记录数、签约率、不接入率、可接入但未调用数、平均样本量、平均测试时间、综合评分

Sheet8: 产品全部排名
列名:排名、子产品名称、总记录数、调用转化率、签约转化率、不接入率、测试中占比、平均样本量、平均测试时间、综合评分

五、处理流程

  1. 读取数据文件 data/脱敏数据_增强版.xlsx
  2. 数据预处理:使用pd.to_datetime()自动识别并转换申请时间、测试返回时间为日期类型,计算测试时间(申请时间到测试返回时间),缺失值用NaN表示
  3. 客户维度聚合分析:按客户简称分组,计算各项指标,计算综合评分,按评分降序排列并添加排名(排名从1开始,相同评分时按客户简称字母顺序排序后连续排名)
  4. 产品维度聚合分析:按子产品名称分组,计算各项指标,计算综合评分,按评分降序排列并添加排名(排名从1开始,相同评分时按子产品名称字母顺序排序后连续排名)
  5. 分类:客户/产品按综合评分排名,使用ceil()向上取整计算前20%为高价值,后20%为低价值
  6. 特征差异分析:对比高价值与低价值客户/产品的特征分布
    • 分类型特征:计算各特征值在高价值组和低价值组中的占比,输出所有特征值(缺失值用"-"表示)
    • 数值型特征:计算高价值组和低价值组的均值进行对比(缺失值用"-"表示)
  7. 生成分析结果:输出Excel文件(8个sheet)到分析结果/高价值客户产品分析结果.xlsx

六、注意事项


本方案用于识别高价值客户和产品,优化资源配置