200字范文 > 【大数据竞赛】MathorCup大数据挑战赛 B题北京移动用户体验影响因素研究题目分析

【大数据竞赛】MathorCup大数据挑战赛 B题北京移动用户体验影响因素研究题目分析

时间：2021-01-23 11:10:38

系列文章目录

第一章【大数据竞赛】MathorCup大数据竞赛 B题北京移动用户体验影响因素研究题目分析

第二章【大数据竞赛】MathorCup大数据挑战赛 B题北京移动用户体验影响因素研究探索性数据分析

文章目录

系列文章目录前言一、赛题：北京移动用户体验影响因素研究二、问题分析1、问题一2、问题二

前言

该系列文章分为问题分析、探索性数据分析、特征工程、模型建立四个部分，以此来记录完成本次竞赛的具体思路，及对部分问题的补充研究。

一、赛题：北京移动用户体验影响因素研究

移动通信技术飞速发展，给人们带来了极大便利，人们也越来越离不开移动通信技术带来的各种便捷。随着网络不断的建设，网络覆盖越来越完善。各个移动运营商，越来越重视客户的网络使用体验，从而进一步提升网络服务质量。

客户满意度是客户对运营商产品服务的满意程度，反映了客户期望与实际感知的产品服务之间的差异。特别是在信息透明、产品同质化的今天，客户满意度的表现成为各大运营商市场运营状况的重要体现。数字经济时代，各大运营商需要运用数字经济的管理理念和技术手段，建立客户体验生态的全方位系统性测评体系，实现客户满意度评测的数字化转型，让客户体验赋能商业决策，让商业决策真正服务客户，共同推动移动网络高质量可持续发展。

根据客户投诉，对影响用户体验的问题逐点解决，是传统提升客户满意度的方法。但是随着用户数量的大幅增加，移动产品的种类越来越丰富，客户的需求越来越高，传统的方法已经难以有效提升客户的满意度。本研究拟通过分析影响用户满意度的各种因素，为决策提供依据，从而实现更早、更全面提升用户满意度。

中国移动通信集团北京公司，让客户根据自身在网络覆盖与信号强度、语音通话清晰度和语音通话稳定性三个方面的体验进行打分，同时还让客户根据语音通话的整体体验进行语音通话整体满意度的打分，并统计整理影响客户语音业务体验的因素，希望以此来分析客户语音业务满意度的主要影响因素，并提升客户语音业务满意度。同时，对于上网数据业务，中国移动北京公司让客户根据自身在网络覆盖与信号强度、手机上网速度、手机上网稳定性三个方面的体验进行打分，同时还让客户根据手机上网的整体体验进行手机上网整体满意度的打分，并统计整理影响客户上网体验的因素，希望以此可以分析影响客户上网业务体验的主要因素，并提升客户的上网体验。

初赛问题

基于以上背景，请你们的团队根据附件给出的数据，通过数据分析与建模的方法帮助中国移动北京公司解决以下问题：

问题 1：根据附件 1 和附件 2，分别研究影响客户语音业务和上网业务满意度的主要因素，并给出各因素对客户打分影响程度的量化分析和结果。附件 1、2 中各字段的解释说明见附件 5。

问题 2：结合问题 1 的分析，对于客户语音业务和上网业务分别建立客户打分基于相关影响因素的数学模型，并据此对附件 3、4 中的客户打分进行预测研究，将预测结果分别填写在 result.xlsx 的 Sheet1“语音”和Sheet2“上网”两个工作表中，并上传到竞赛平台，说明你们预测的合理性。

需要附件的评论区留邮箱，我看到会及时发送。

二、问题分析

1、问题一

本题要求 8 个因变量的主要因素并将其量化，可以理解为是对特征重要性的评估。首先将定类数据和定量数据分开，分别进行相关性分析，通过查阅资料找到适合其性质的相关性分析方法——Kappa 一致性检验和spearman 相关系数，这两种方法属于特征重要性评估的过滤式方法，对结果进行分析，分别得到主要因素。但这两种相关性分析方法将定量与定类数据分开，主要因素提取结果不具备全局一致性，故采用多元线性回归的方法，回归系数可以作为筛选主要因素的标准且回归系数也可作为主要因素量化结果，初步设想建立三个不同的线性回归模型，经典多元回归模型、岭回归模型以及Lasso回归模型，后两个回归是带惩罚项L2、L1 的多元线性回归，属于特征重要性评估的嵌入式方法，最后通过比较三种回归模型的 MAE（MAE 越小的模型越好）选出最好的模型进行主要特征的选择，如果三个模型 MAE 差值不大，则优先选取 Lasso 回归，因为通过查阅资料发现 Lasso 回归自带特征选择性，在 L1 正则化项，无关的变量系数将会被赋值为 0，也就是说，如果 Lasso 回归的水平达到了接近或优于普通线性回归和 Ridge 的水平，且在 Lasso 最后生成的模型中仅选用了附件中的部分变量，根据奥卡姆剃刀原则^{1，故在本文中选用 Lasso 的回归系数作为优先考虑的方法。但考虑到线性回归仅能学习到一阶的线性关系，无法学习到非线性关系以及多变量组合与因变量之间的关系。所以，接着建立基于树的XGBoost 集成学习模型，在此模型下基于信息增益筛选最优特征子集，换言之提取出主要因素，该因素的信息增益即为主要因素的量化结果。对四个模型的结果进行对比分析，不同因变量选取的模型可能不同，最终按照各自优选的模型确定筛选出的其主要因素即量化结果，并对结果进行分析。}