《Pandas 数据分析:5 个实战案例带你快速上手》

本书通过五个典型数据分析场景,帮助读者快速掌握 Pandas 核心技能。以下是案例概览:


案例 1:销售数据清洗与统计
  • 目标:处理缺失值与异常值,计算关键指标
  • 核心技能
    # 缺失值处理
    df.fillna(method='ffill', inplace=True)
    
    # 分组统计
    monthly_sales = df.groupby('月份')['销售额'].sum()
    


案例 2:用户行为漏斗分析
  • 目标:追踪用户转化路径,计算各环节转化率
  • 核心技能
    # 转化率计算
    funnel_rate = df[['注册', '下单', '支付']].apply(lambda x: x/x.iloc[0], axis=1)
    
    # 可视化漏斗
    funnel_rate.plot(kind='bar', stacked=True)
    


案例 3:时间序列预测
  • 目标:基于历史数据预测未来趋势
  • 核心技能
    # 重采样与滑动窗口
    df_resampled = df.resample('W').mean()
    df_rolling = df_resampled.rolling(window=4).mean()
    


案例 4:多维度客户分群
  • 目标:通过 RFM 模型划分用户价值等级

  • 核心公式

    $$RFM_Score = 0.5 \times R + 0.3 \times F + 0.2 \times M$$

    其中 $R$ (最近购买), $F$ (购买频次), $M$ (消费金额) 标准化值


案例 5:文本数据情感分析
  • 目标:结合文本处理与数值分析
  • 核心技能
    # 文本向量化
    from sklearn.feature_extraction.text import TfidfVectorizer
    tfidf = TfidfVectorizer().fit_transform(df['评论'])
    
    # 情感分合并
    df['情感分'] = tfidf.dot(sentiment_weights)
    


学习路径建议

  1. 先掌握基础操作:DataFrame创建、索引、切片
  2. 重点练习数据清洗技巧:处理缺失值、重复值、异常值
  3. 熟练使用分组聚合:groupby + agg 组合
  4. 实践数据可视化:df.plot() 快速探索数据分布

提示:所有案例提供完整数据集和代码,建议配合 Jupyter Notebook 边学边练!

更多推荐