近年来,伴随着全球经济的快速发展,电子商务领域空前繁荣,物流业更是被称为“第三利润源泉”,2010年至2020年间我国快递行业业务量总量逐年增长,预计2021年至2025年,快递业务量年均增长15.4%,为满足快递业务的发展需求,合理的物流配送中心位置显得尤为重要。
目前国内外对物流配送中心的选址研究主要有:在应急物流选址方面,魻zdamar等提出了自然灾难发生后的应急物流和应急物资配置问题,以物资送达时间最短和救治伤患延误最小建立一种多目标物流选址模型
在物流配送中心选址的方法方面,主要包括定性研究法和定量研究法。其中定性研究法通常采用专家判断或者多指标评价法来选择最优方案,如张春玲运用模糊综合评价法和层次分析法解决了多个备选点最优的问题
基于上述研究问题,本文主要从K值确定及数据类型的聚类对K-means算法进行优化。本文将综合运用肘部法及轮廓系数确定K-means算法中的合理K值;针对无法处理类别型变量的问题,采用变量编码的方法,将类别型变量转化为数值型变量,然后再进行聚类。最后基于实际数据,对研究区域的最优物流配送中心位置进行进一步的分析探讨。
配送中心选址过程中需考虑多种影响因素,本文对2022年以来的文献进行梳理总结,将影响因素分为经济因素、经营环境因素、基础设施因素、自然因素、运输物品特点因素和其他因素六大类。对影响因素统计分类后结果如图1所示,根据ABC分类法,对物流配送中心选址的各项影响因素进行分类,具体可分为关键因素、一般因素和次要因素三类。通过ABC分类法,对选址文献进行综合考虑,本文选取以下划分标准对物流配送中心选址影响因素进行分类:累计频率为0%~80%为关键影响因素,80%~90%为一般影响因素,90%~100%为次要因素。
由图1可知,运输成本、运营成本、固定成本、需求量、服务满意度水平、运输方式、道路可达性和交通设施这8项因素为关键影响因素,经营环境和地形条件为一般影响因素,其余为次要影响因素。本文将以关键影响因素为基础探究选址问题。
结合数据的可获得性及影响因素特点,本文将建立物流配送中心选址影响因素指标体系如表1所示:
K-means算法中,K值决定在该聚类算法中所要分配聚类的簇的多少,簇的多少影响着算法的聚类效果。而通常情况下,想确定最佳K值比较困难,目前常用的确定K值的方法有肘部法及轮廓系数法。肘部法聚类时使用的评价指标为数据集中所有样本点到其中心簇的距离之和的平方(SSE),肘部法选择的并不是误差平方和最小的K值,而是误差平方和突然变小时对应的K值,因此对于降低速率较为均匀的数据无法确定合适K值。在此种情况下,轮廓系数法能够很好地解决该问题。轮廓系数值是常用的聚类效果评价指标,该指标结合内聚度和分离度两个因素,具体计算过程如下:
(1)假设已经通过聚类算法将数据进行了聚类,并最终得到k个簇,对于簇中的每个样本点i,分别计算其轮廓系数,其中需要对每个样本点i计算下面两个指标:
①a(i)为样本点i到与其同属同一个簇的其他样本点的距离平均值,该值越小,说明该样本属于该类的可能性越大。
②b(i)为样本点i到其他簇中所有样本的平均距离的最小值。
(2)该样本点的轮廓系数为:
对于所有样本点的轮廓系数的平均值为该聚类结果的总轮廓系数。
本文数值型数据均采取归一化处理,在影响选址的指标体系中除数值型数据外,还有类似运输方式等类别型数据,对于该种类型数据的处理本文采取独热编码(One-Hot Encoding)将每个类别值表示为一个二进制向量,转换为可以处理的连续型数据。该种方法保留了类别信息,不引入任意的数值关系,同时可以避免数值的大小对模型产生不正确的影响。适用于大多数机器学习算法,尤其是那些基于距离度量的算法,如本文的K-means算法。
独热编码的过程如下:首先,确定类别型特征中的所有不同类别值。然后,对于每个类别值,创建一个维度与类别数量相等的二进制向量。最后,将每个二进制向量的对应维度上的值设置为1,其他维度上的值设置为0。如表1中运输类型指标,有铁路/公路/航空三种运输方式,通过独热编码的方式可转化为:铁路:[1,0,0];公路:[0,1,0];航空:[0,0,1]。原来的类别型特征被转换为了三个维度的连续型数据,继而能够在后续聚类算法中应用。
Mac Queen首次提出了K均值聚类算法,它是一种非监督学习的硬聚类算法,通过迭代的方式寻找最优的聚类结果。假设已获取的物流配送中心营业点样本点有I=(1,2,…,i)个,需要考虑的影响因素具有N=(1,2,…,n)个,对于第i个样本点其特征向量可以表示为
依据上述公式,逐个计算每个特征的差值的平方,并对它们进行求和并进行平方根运算,然后计算每对样本之间的欧氏距离,得到每个元素表示相应样本之间的欧氏距离。根据欧氏距离结果将数据点分配到最近的聚类中心,然后计算聚类后的各簇内样本点到聚类中心的欧氏距离和,设定总误差平方和SSE为:
对于所有样本点的总误差的平方和为该聚类结果的总误差平方,SSE越小聚类效果越好。除考虑样本点到该簇聚类中心点距离外,在聚类过程中还需考虑样本点至其他簇中样本点的距离,即轮廓系数,具体计算公式如式(1)所示。计算后选取最佳K值,确定最优聚类方案,运用Matlab编程后输出聚类结果。
上海市作为中国经济发展迅速的城市之一,拥有众多的物流配送中心,选取物流服务业中的顺丰速运为代表研究其在上海市的物流配送中心选址问题。基于百度开放平台与Python平台获取上海市大虹桥商区顺丰速运末端营业点目前布局,如图2所示。这些物流配送中心分布在城市的不同区域,有的地理位置优越,有的则位于偏远的郊区。为了更好地管理和优化这些物流配送中心,需要对它们进行聚类分析,并选取合适的聚类中心作为物流配送中心。
根据本文研究所需从不同渠道获得不同类型的数据,本文所需数据如道路等级等来源于百度开放平台;人口、劳动力成本等数据来自上海市统计局颁布的上海统计年鉴及顺丰官网2021年度报告,基于各末端营业点中的人口数量占总人口的比例计算各营业点人口成本。
本文使用肘部法和轮廓系数法度量聚类结果如图3所示,运用肘部法对该样本数据进行聚类时,随着K值的增大,SSE值会逐渐降低,但K值下降速率平缓,无明显突然下降趋势,该种方法下无法确定最佳K值;而轮廓系数法K值为3时轮廓系数最大,较为合适。
选取K为3,对大虹桥商区顺丰现有物流配送中心营业点进行聚类,聚类结果如图4所示。
上述聚类结果以运输成本、固定成本以及类别型影响因素为依据,为更好地衡量该方案聚类效果,对比传统K-means聚类算法的物流总成本,物流总成本包含运输成本、运营成本和固定成本。传统K-means聚类方法无法对类别型影响因素做出计算,因此在数据输入时,传统K-means算法仅能输入数值型影响因素特征值,改进K-means算法能够同时输入数值型影响因素与类别型影响因素特征值,结果如表2所示。
从中可以看出,传统K-means算法聚类结果K值为4时,对比改进后考虑类别型因素K值为3时物流总成本为34.153 2万元,降低8.76%,运营成本降低14.85%,固定成本降低8.09%。由此可知,该方案能够有效降低物流总成本。
本文在梳理出物流配送中心选址影响因素体系的基础上,综合运用肘部法及轮廓系数确定K-means算法中的合理K值;针对无法处理类别型变量的问题,采用变量编码的方法,将类别型变量转化为数值型变量,然后再进行聚类,确定物流中心的选址。最后基于实际的案例数据,对最优物流配送中心位置进行聚类分析,确定最佳选址。结论如下:
(1)相比较于传统K-means算法,本文提出的算法能够采用热编码的方法有效处理类别型数据,获得更准确的聚类效果。
(2)采用本文算法进行聚类分析的结果显示,相比较于传统K-means算法,本文计算的聚类结果能够有效降低物流总成本,整体方法可行。
(3)本文在考虑聚类选址时主要考虑了经济和交通影响因素,对于综合考虑更多其他要素时,可在本文模型的基础上进行丰富,其拓展性还可以进行更深入的研究。