基于线性分类模型的概率预测分析

关键词: 预订 旅行

一、背景

目前网上旅行预订市场趋近成熟, 越来越多的人开始选择或开始学习在网上进行旅行预订, 那么对于酒店、旅馆、民宿等供应商来说, 在数据驱动的今天, 谁能够更好的服务好用户, 了解客户的需求, 提高流量转化量和转化效率, 提高忠诚用户量, 就显得尤为重要。在线房型预订的概率预测分析, 对旅行服务行业有着实际的场景需求, 具有重要的研究价值和指导意义。

二、逻辑斯蒂回归模型

首先我们定义x=来代表n维特征矢量, 用n维列矢量w=来代表对应的权重或系数, 截距为b, 这样一种线性关系就可以表达为:

f (w, x, b) =wTx+b, f取值范围为R

当处理最简单的二分类问题时, 我们希望f的取值能在0与1之间, 所以需要一个函数把原先的取值映射到 (0, 1) 。逻辑斯蒂 (Logistic) 函数:

g (z) =1/ (1+e-z) , 这里的z取值为R, 并且g的取值为 (0, 1) :

如果将z替换成f, 就会得到一个经典的线性分类器, 逻辑斯蒂回归模型 (Logistic Regression) :

分析这个函数可得:如果z=0, 那么g=0.5;如果z>0, 那么g>0.5, 此特征矢量为一类;反之, 如果z<0, 那么g<0.5, 则此特征矢量被归于另一类。

假设有一组k个用于训练的特征矢量X=和其所对应的分类目标Y=, 我们希望可以用逻辑斯蒂模型在训练集上取得最大似然估计的概率P (w, b) 。

极大似然估计 (Maximum Likelihood Estimate, 简称MLE) 是一种参数估计的经典方法之一, 也被称为最大概似估计或最大似然估计。简单来说, 如果已知某个随机样本满足于某种概率分布, 但不知道其中的具体参数, 参数估计就是通过多次的实验结果, 利用结果推出参数的近似值。极大似然估计的思想就是再次基础上, 如果已知某个参数使得样本出现的概率最大, 那么我们就不用再去选择其他小概率的样本, 而把这个参数值作为参数估计的真实值, 当然, 极大似然估计也是存在误差的。

三、实验

(一) 实验目标和数据集

我们的实验目标主要是根据逻辑斯蒂回归模型来预测用户对某一房型是否预订的概率, 即0或1的概率, 0表示未预订, 1表示已预订。

我们用某旅游服务网站的数据集来做分析研究, 数据量为10万条的订单数据, 首先导入pandas、numpy、sklearn等工具包, 对数据作预处理, 读取数据, 并将前70%用作训练集, 后30%用作测试集, 然后选择训练中需要的特征字段, 把数据中某一特征全部丢失的值去掉。

本实验采用众数替换的方法处理缺省值, 在实验环境下相对简单, 便于后续的数据处理。通过查询训练样本和测试样本的数量与类别分布得到输出结果为:

可见, 我们用于训练的70000条样本数据中 (67958条未预订, 2042条已预订) , 30000条测试样本中 (29134条未预订, 865条已预订) 。

(二) 训练模型

我们将30%的测试样本中orderlabel为1的筛选出来, 为后面评价模型的准确性提供依据。接下来, 我们使用逻辑斯蒂回归对处理后的训练数据进行学习, 并且根据测试样本进行概率预测。实验的预测结果为:

(三) 评估模型

我们对30000条测试样本数据进行了概率预测, 我们取预测为1的那一列概率, 然后按照订单号orderid分组, 以概率最大的roomid作为预测值。因为测试样本中有865条正确标记, 所以直观的做法就是把预测结果和正确标记进行比对, 计算这865条测试样本, 预测正确的个数或百分比, 我们把这个百分比称作准确性 (Accuracy) , 这也是用来评估分类模型的重要性能指标。最终我们得到实验的输出结果为:

四、总结

线性分类器是经典和常用的机器学习模型之一。虽然受限于数据特征和分类目标之间的线性假设, 在解决一般问题的工程实践中仍可以把其表现的性能作为基准。这里可以看到, 用逻辑斯蒂回归模型对房型预订的概率预测, 准确性可以达到29%左右, 当然这是在现有的训练数据中测试出来的, 如果考虑到实际应用场景中, 还需要更大量的训练数据以及建立性能更好的模型。

摘要:线性分类器 (Linear Classifiers) , 是一种假设特征与分类结果存在线性关系的模型, 作为监督学习问题中的经典模型, 被广泛应用于生活和工作的各式场景。本文主要介绍基于线性分类模型在房型预订的概率预测分析, 通过对海量数据集的处理, 用机器学习的经典算法构建模型, 预测用户是否会预订某一房型, 最后对模型的性能进行分析。研究内容具有一定的实际意义, 可以为企业提升流量转化和精细化运营提供指导性的解决方案。

关键词:线性分类器,房型预订,概率预测

参考文献

[1] 金海月.逻辑斯蒂回归模型在电信领域中的应用[J].沈阳理工大学学报, 2018, 37 (2) :34-38.

[2] 黎伟强, 韦灵, 贾长森.基于逻辑斯蒂模型的文本分类研究[J].中国高新区, 2018 (3) :31-32.

注:本文为网友上传,旨在传播知识,不代表本站观点,与本站立场无关。若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:66553826@qq.com

上一篇:分类提高 下一篇:教学中存在的问题