利用数据对未来进行预测分析,虽然不能百分百的准确预测,但是有数据理论支撑的趋势预测是客观可靠的。当数据分析的目的涉及未来决策时,就可以大胆使用预测的思路和方法,如企业明年的战略计划、销售计划等,这对企业而言非常重要。
一、数据预测有哪些步骤?
在企业中,要实现数据预测,一般需要经过以下基本步骤:
1、问题的定义
通常这是最难,也是最为重要的一步。将要预测什么,这项工作是否重要,是否有历史数据,是否有合适的技术或者预测工具,公司如何使用预测的结果或者说预测的结果能够对公司经营有什么作用,这些都是事先要考虑的问题。
2、信息的搜集
这里说的信息,主要包含两个含义。一个是数据的搜集,例如我们既可以通过手工台账来获取和搜集购物中心经营数据,也可以借助更加智能化的数据采集系统。另一个含义则搜集购物中心经营领域的专业知识,假如你和我一样是零售商业地产行业的从业者,那么在专业领域的经验或知识则是我们领先于常规码农或数据分析员的强项。
3、探索性分析
通常需要通过绘制合适的图表来看历史数据呈现什么样的规律,通过肉眼的观察就可轻易的发现一组历史数据可能呈现出一些趋势、周期性,或者发现经常有一些异常的数据需要深入的研究和解释,亦或是多组数据之间存在一些关联。
4、模型的挑选
或者称之建模,对于从事零售商业地产的管理人员来说,这或许是最富有技术含量和挑战性的一步。通常,为了分析历史数据的规律,我们需要建立多个模型,然后通过一定的方法来判定每个模型的可解释性,以及用该模型估计历史数据的匹配精确程度,并通过模型这间的比较挑选出合适的分析模型。
5、预测及优化
有了合适的分析模型,我们则可以用该模型对未来的数据进行预测。当然,这个模型不是一成不变的。随着时间的推移,未来的真实数据会逐渐的被采集到,我们应当用这些新的数据来再次训练模型,从而改善分析模型并保持分析模型和现实的匹配。
二、数据预测有哪些方法?
数据预测技术发展至今,已经有一些比较成熟的方法,或者说模型。大致可以分为以下六种:
1、线性回归
线性回归比较经典的模型之一,英国科学家Francis Galton在19世纪就使用了“回归 ”一词,并且仍然是使用数据表示线性关系最有效的模型之一。
线性回归是世界范围内,许多计量经济学课程的主要内容。学习该线性模型可以在解决回归问题有方向,并了解如何用数学知识来预测现象。
学习线性回归还有其他好处,尤其是还学习了两种可以获得最佳性能的方法时:
·闭式解:一个神奇的公式,能通过一个简单的代数方程给出变量的权重。
·梯度下降法:面向最佳权重值的优化方法,用于优化其他类型的算法。
此外,我们可以用简单的二维图在实践中直观地看到线性回归,这也使该模型成为理解算法的良好开始。
2、逻辑回归
虽然名为回归,但逻辑回归是掌握分类问题的最佳模型。
学习逻辑回归有以下几点优势:
·初步了解分类和多分类问题,这是机器学习任务的重要部分
·理解函数转换,如Sigmoid函数的转换
·了解梯度下降的其他函数的用法,以及如何对函数进行优化。
·初步了解Log-Loss函数
学习完逻辑回归后,有什么用?能够理解分类问题背后的机制,以及如何使用机器学习来分离类别。
就像线性回归一样,逻辑回归也是一种线性算法。在研究了这两种算法之后,将会了解线性算法背后的主要局限性,同时认识到它们无法代表许多现实世界的复杂性。
3、决策树
首先要研究的非线性算法应该是决策树。决策树是一种基于if-else规则的,相对简单且可解释的算法,它将让你很好地掌握非线性算法及其优缺点。
决策树是所有基于树模型的基础。而且,决策树同时适用于回归和分类问题,两者之间的差异最小,选择影响结果的最佳变量的基本原理大致相同,只是换了一个标准来做。
虽然了解了回归中超参数的概念,如正则化参数,但在决策树中这是极其重要的,能够帮助明确区分模型的好坏。
同时,超参数在学习机器学习的过程中也至关重要,决策树能很好地对其进行测试。
4、随机森林
由于决策树对超参数和简单假设的敏感性,决策树的结果相当有限。当深入了解后,会明白决策树很容易过度拟合,从而得出的模型对未来缺乏概括性。
随机森林的概念非常简单。有助于在不同的决策树之间实现多样化,从而提高算法的稳健性。
就像决策树一样,可以配置大量的超参数,以增强这种集成模型的性能。集成(bagging)是在机器学习中一个非常重要的概念,能为不同的模型带来了稳定性,即用平均数或投票机制将不同模型的结果转化为一个单一的方法。
在实践中,随机森林训练了固定数量的决策树,并对之前所有这些模型的结果进行平均。就像决策树一样,我们有分类和回归随机森林。
5、XGBoost/LightGBM
其他基于决策树的算法,并能带来稳定性的模型有XGBoost或LightGBM。不仅能提升算法,还能提供更稳健和概括性的模式。
在Michael Kearns发表了关于弱学习者和假设检验的论文后,关于机器学习模型的思潮得到了关注。当中表明,增强模型是解决模型受到整体权衡偏差与方差的绝佳方案。此外,这些模型是Kaggle竞赛中最受欢迎的选择。
6、人工神经网络
最后,是当前预测模型中的王者——人工神经网络(ANNs)。
人工神经网络是目前最好的模型之一,可以在数据中找到非线性模式,并在自变量和因变量之间建立真正复杂的关系。通过学习人工神经网络,你将接触到激活函数、反向传播和神经网络层的概念,这些概念应该为你研究深度学习模型打下良好的基础。
此外,神经网络在结构上有很多不同的特点,学习最基本的神经网络将为转到其他类型的模型打下基础,如主要用于自然语言处理和递归神经网络和主要用于计算机视觉的卷积神经网络。
三、数据预测有哪些具体应用?
在实际运用中,预测分析的思路主要有以下几个方面的作用。
1、决策管理
通过预测分析的方法让企业在制定决策前,系统地分析哪些决策最有可能在未来取得成功。如今很多企业已经有了专门的数据分析团队,以数据为依据拟定未来的经营战略。
2、绩效管理
通过数据预测来管控未来绩效,是降低企业风险的一大措施。目前来看,采取数据预测分析的企业,在绩效管理方面的精准度更高,无论是财务团队还是业务团队,均能做出更合理的绩效考核标准。
3、成本控制
通过预测分析控制成本,这在制造业中被广泛应用。如今,许多制造企业的生产管理人员、工程师和质检员都开始学习数据预测分析,并在设备维护、人员控制和材料成本的控制上取得了极大的进步。
4、犯罪预防
对政府机构来说,维护城市的公共安全,保障执法人员的安全是重要的任务。
在过去,犯罪行为很难被预测,只能依靠执法人员的个人直觉和有限的信息来完成任务。现在,各城市增加了监控设施、罪犯信息也被输入计算机统一管理,这些现代化的措施让与犯罪相关的数据收集更加便利,分析这些庞大的数据,不仅有助于了解过去发生了什么犯罪事实,还能帮助预测未来可能出现什么犯罪现象。
其原理是,综合分析历史犯罪事实的档案数据、罪犯个人信息、地理位置、天气、日期等信息,从而确定哪些地区是犯罪高发区、哪类人群容易犯罪、哪类情况最可能触发犯罪,以达到实现犯罪预测的目的。
总的来说,数据预测可以帮助企业、政府等机构提供确定未来结果的信息,帮助各类机构权衡不同决策方向的效果,并提前采取预防措施,因此选择合适的方式十分重要,在具体应用中一定要具体分析。