袁建辉 柴望阳 刘昊宇
华北理工大学数学建模创新实验室
摘要
“拍照赚钱”是移动互联网下的一种自助式服务模式,它是基于移动互联网的自助式劳务众包平台,既可以为企业提供各种商业检查和信息搜集,又因它的灵活性备受年轻人的青睐。而任务定价是决定这种模式能否运行好的重要因素,建立合理的定价模型是企业的重要课题。
本文通过搜集数据,针对问题建立了定价模型,对任务未完成的原因进行分析总结,并给出合理地定价方案。
我们通过对搜集的数据进行分析,得出影响任务定价的三个因素供求距离、消偏信誉值和消偏任务限额,对三个变量进行定义和计算,然后据此建立多元线性回归模型,并利用matlab进行拟合运算,得到各个任务点的预期定价,得到原始定价模型:。用得到的预期价格与实际价格进行对比分析,并对未知原因的未完成任务点进行K-means 聚类分析,最后得到任务未完成的三个原因:价格过低,无人员分布及地理位置相对偏僻。
关键字:多元线性回归;K-means聚类分析
一.问题重述
1.1问题背景
“拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载APP,注册成为APP的会员,即可从APP上领取需要拍照的任务,赚取相应的酬金。这种基于移动互联网的自助式劳务众包平台,为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此APP成为该平台运行的核心,而APP中的任务标价又是其核心要素。如果标价不合理,有的任务就会无人问津,而导致商品检查的失败。
1.2已知数据
我们搜集了两个相关数据,一个是已结束项目的任务数据,包含了每个任务的位置、定价和完成情况;另外一个是会员信息数据,包含了会员的位置、信誉值、参考其信誉给出的任务开始预订时间和预订限额,原则上会员信誉越高,越优先开始挑选任务,其配额也就越大。
二.问题分析
我们需要讨论任务定价与未完成任务之间的关系。在这里我们把任务定价和未完成任务遵循市场经济规律。由市场经济规律可知任务定价越高任务完成率越高,任务定价越低,任务完成率越低。由此我们寻找影响任务定价的因素就可以找到影响任务完成的因素。
把会员人数与任务看做成一种供求关系,当会员人数较多任务较少时,此时是一种供大于求的情况,任务定价自然下降;当会员人数较少任务较多时,此时是一种供小于求的情况任务定价自然上涨。最后我们猜测任务与会员的距离也会影响任务的定价,通过做一个以任务点为圆心以1km为半径的圆,然后找出会员与任务点的距离,发现会员与任务的距离越远,任务定价越高,会员与任务的距离越近,任务定价越低。最终通过matlab计算出三个变量的数据。
三.模型假设
?假设只要有会员去接受任务,那任务就能被完成,不存在完成任务失败的情况。
?假设会员选择任务时,仅考虑距离和薪酬,不掺杂个人情感因素。
?假设附件中所给的数据均真实准确。
?假设单位距离会员要支付的交通费用相同,不考虑因选择交通方式不同而引起的路途费用不同。
?假设会员和任务点、任务点和任务点之间的距离为绝对距离,不考虑街道等因素对距离的影响。
?假设任务的定价只与内部因素有关,不受外部行业和政策等的影响。
四.模型的建立与求解
1.原始标价模型的建立
我们把会员看作是一件商品,任务的标价看作是商品的价格,商品的价格受市场的供求关系影响,即任务的标价受市场上会员的供求关系影响,按照经济学原理任务的标价为会员供给等于需求时的价格。对于这个问题,我们从市场的供给与需求角度出发,建立一个新的标价模型。我们选取了供求距离、消偏信誉值.和消偏任务限额三个变量作为任务标价的因素。
?供求距离
定义任务供求距离Di为,以任务点为圆心,半径为1km的圆域内的会员与任务点的距离求和除以,具体公式:
(1)
其中为第i个任务点的供求距离,为以第i个任务点为圆心,1km为半径的圆域内的第j个会员与任务点的距离, k1为特征值。
引入特征值,把距离的求和值除以,是为了将会员信息对任务标价的影响考虑进去,是为了尽可能消除会员与任务点间的距离与任务点周围的会员数都会对供求距离影响。
利用附件中所给的经纬度,转化求解距离的公式如下:
(2)
其中假设i点的经纬度为(),j点的经纬度为()。
?消偏信誉值
定义消偏信誉值Ei为,以任务点为圆心,半径为1km的圆域内的会员与任务点的会员信誉值求和除以,具体公式如下:
(3)
其中Ei为第i个任务点的的消偏信誉值,eij 为以第i个任务点为圆心,1km为半径的圆域内的第j个会员的信誉值, k2为特征值。
我们得到会员的信誉值会通过影响会员的供求关系进而来影响价格,并且我们认为会员的信誉是通过影响会员预定任务开始时间进而影响市场的供给关系从而影响价格,我们可以分析出两者存在显著的负相关关系,即信誉值越高的会员开始预定任务的时间越早。
?总任务限额
定义总任务限额Qi为,以任务点为圆心,半径为1km的圆域内的会员任务限额求和,具体公式如下:
(4)
其中Qi为第i个任务点的的总任务限额,qij为以任务点为圆心,半径为1km的圆域内的第j个会员任务限额。
?多元线性回归模型的建立
我们将附件中所给的任务预期标价定义为Wi,将Wi与我们引入并可求解的供求距离、会员信誉值、总任务限额建立多元线性回归模型,模型公式如下所示:
(5)
其中为回归系数,为常数。
根据附件中所给的数值,利用matlab拟合可以求解出回归系数、常数,然后利用最小二乘法使得拟合误差最小,尽可能多的点符合拟合函数。
2.标价模型的求解
将附件中所给的数据进行简单提取处理,然后计算出各任务点的供求距离、会员信誉值和总任务限额的值,在计算三个变量值的过程中,我们改变并不断测试两个特征值,发现拟合效果最好时,特征值k1=0.6,k2=0.4,再根据(5)所建立的模型,利用matlab进行多元线性回归拟合。
最后我们得到预期任务标价的函数表达式为:
(6)
其中为第i个任务点的供求距离,为第i个任务点的的消偏信誉值,为第i个任务点的的总任务限额,为预期任务标价。
综上求解,可以得出任务标价的规律。任务的标价与任务附近会员的数量和与任务点之间的距离相关,并且会员的信誉值和会员的任务限额也会对任务的标价产生影响。我们根据对附件中任务点和会员信息数据处理转化,得到任务标价与各变量之间满足下面的函数关系:,任务附近的会员数量和与任务点之间的距离通过影响来影响标价,附近会员的信誉值影响来影响标价,任务限额的通过影响来影响标价。
3.基于K-means聚类模型分析任务未完成原因
?未完成原因分类
我们将附件一中所有未完成的任务的数据进行处理分析,求解出(6)模型中的三个变量,并将它们代入原始定价模型的定价函数(6)中,求解出所有未完成任务的预期任务标价,再与实际标价对比分析,得到三种类型:
(1) ,即预期任务标价小于实际标价。因为我们将会员看作商品,所以其价格也会随着供求关系有上下波,若预期标价大于实际标价,则完成任务所得报酬未达到会员预期报酬,会导致无人愿意接受并完成任务,导致任务无法完成则从该种结果中得出任务未完成的原因——价格过低。
(2) ,即供求距离为0,以任务点为中心,半径r的范围内无会员分布,即任务点与最近会员的距离大于会员可接受的接单距离。故得出另一导致任务未完成的原因——无人员分布。
(3) ,即预期任务标价大于实际标价。这种类型的任务既满足合理定价规律,有有会员分布,但是仍未被完成,我们推测该种情况下的任务未完成的原因可能和地形地势、交通便利程度等因素相关,故需再将该情况下所有未完成任务的数据单独进行进一步详细分析。
?未知原因的K-means聚类探索
(1)K-means聚类方法
先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个:
没有(或最小数目)对象被重新分配给不同的聚类。
没有(或最小数目)聚类中心再发生变化。
误差平方和局部最小。
我们将所有未知原因的未完成任务点进行K-means聚类,随机生成k个聚类中心,计算每个未完成点至聚类中心的距离,利用得到的类别集合计算每个类别中所有点的平均值,作为新的簇中心,得到坐标,并对应一个类别集合,反复计算未完成点到簇中心的距离,并寻找新的簇中心,直到聚类中心不再大幅移动。
利用matlab进行多次测试,得到k=3效果最好,我们得到三类的聚类中心分别为北纬23.8947°,东经113.5424°;北纬22.5608°,东经114.2826°;北纬23.0609°,东经114.5036°。
我们将其在地图中进行搜索定位得到三地的地理位置分别为,清平高速和机荷高速附近、理工职业技术学院附近和珠江江岸附近。
对上述结果进行简单分析,看出三个聚类中心的位置都较为偏僻,所以我们推测得到导致这部分任务未完成的原因是地理位置偏僻,进而导致的会员密度低,任务难以完成。
4.任务未完成原因:
根据对预期任务标价和实际标价的对比分析,以及K-means聚类分析,我们可以得到任务未完成的三个原因:
(1)价格过低。根据原始任务的实际标价低于利用原始标价模型计算得出的会员的预期标价,完成任务所得报酬未达到会员预期报酬,会导致无人愿意接受并完成任务,导致任务无法完成。我们共搜索出186 个这种原因下未完成的任务点。
(2)会员分布较少。以任务点为圆心,半径为1km的圆域内无会员分布,或者说离该任务点最近的会员,与任务点的距离大于会员可接受的距离长度,导致任务没有会员接受而无法完成,我们搜索出了36个这种原因下的未完成任务点。
(3)地理位置偏僻。任务点的地理位置位于人口密度低的高速公路、机场、郊区、等,位置偏僻,标价时未能对任务可接受者进行相应的价格补偿,也就是说会员的预期任务标价大于原始标价模型下的预期标价,从而导致任务未完成。我们搜索出了91个未完成任务点。