浙江正泰能效科技有限公司 丁伟翔 倪岳通 张莺
摘 要:建筑能耗预测与人工智能模型的相结合是值得研究的课题之一。本文阐述了支持向量回归SVR模型的搭建方法,针对一栋虚拟的三维办公建筑,采用能耗模拟的方式获取空调系统能耗作为训练集,并通过模型参数的设置及6个特征数的选取等一系列步骤建立了SVR能源预测模型,最后通过测试集对该模型的性能进行了评价。结果表明,经数据样本训练后所获得模型的预测值与真实值之间的方均误差MSE为0.015,该SVR模型的预测精度达到合格要求,可以用来指导预测未来能耗,为建筑节能领域提供了方法与参考。
关键词:支持向量回归;数据挖掘;空调系统;能耗预测;数据分析;方均误差
0 引言
回归预测是数据分析领域的一项重要应用。如图1所示,是一个简单的一元回归预测模型。从历史统计收集的数据点集合中,希望学习到一个f (x),将影响目标值y的因素找出来,建立了影响因素x与目标值y之间的函数关系的近似表达式。当f(x)与y偏离不大(通过误差检验),则认为该回归模型合理。如果模型确定,就可以用该模型对未来/未知因素的变化值进行预测。显然,回归模型的建立是一种机器学习的过程,使计算机能够执行需要人类智能处理的任务[1]。
图1 回归预测模型示意图
1 能耗预测与人工智能结合
随着建筑全生命周期中的用能占社会总能耗的比率不断增加[2],对建筑能耗进行分析、预测为建筑低能耗的实现提供理论指导和评估依据,是建筑节能降耗的重要措施,对提高建筑能源利用率具有重要意义。作为建筑能耗中占比最大的HVAC能耗,其受到诸多因素的影响:气象、环境、围护结构、居住者行为、设备性能、控制策略等,不再是受单一因素影响,而是一种多因素、非线性交互耦合影响的结果[3]。如式(1)所示,其复杂性使得难以准确预测。
传统意义上,建筑空调系统能耗预测方法主要包括两种:第一种是简化的能耗指标法,其参考了同建筑业态的往期统计指标,例如夏热冬冷地区办公建筑的全年能耗约束值在70~110kW·h/(m2·a)[4]。第二种是温度频率法,其考虑将干球温度作为影响能耗的主要因素,统计出室外某一温度范围的全年总小时数,进而再由相应的计算公式得出能耗值。这两种方法均是以一种近似的方式评估空调系统的用能水平,而无法精确地得出某特定地区建筑的能耗高低。
选用合适的模型分析能源情况是值得研究的课题。一个有效且高效的模型一直是工程界寻求的目标。基于人工智能的模型在解决包括大量独立参数和非线性关系的复杂环境应用问题时具有很大的潜力,可以为建筑能耗预测带来创新性的技术[5-7]。与预测相关的使用最广泛的人工智能方法与高能力人工智能模型是支持向量机(SVM,Support Vector Machine)。SVM模型是从历史统计数据中提取模型的一组方法,它们通常用于为输入与输出之间的复杂关系进行建模或发现数据中的模式。通过对模型进行训练和测试,挖掘数据中的有效信息,使模型具有高预测精度,是解决分类/回归问题最好的监督学习算法[8]。
显然,对于建筑空调能耗而言,是一组随时间连续变化的值,预测能耗涉及到回归的问题。支持向量回归SVR(Support Vector Regression)是支持向量在函数回归领域的应用。如下图所示:巨大的数据集(图中的点)构成了一个高维度的向量空间。SVR模型旨在找到一个回归平面(图中的实线),让一个集合内的所有数据到该平面的距离最近(总方差最小),且给定容忍值ζ(图中的虚线)以防止过拟合(过拟合不具有泛化能力),那么此时得到的超平面就是预测模型。这将回归转化为一个最优化的问题。SVR模型通过映射技术解决非线性拟合问题而引入核函数,使得该算法在高维特征空间中有效地工作[9]。
图2 SVR模型示意图
目标函数为式(2):
约束条件为式(3):
最终SVR模型的决策式为式(4):
式中:αi*,αi为拉格朗日乘子,K(xi, x)为核函数。
本文探究人工智能模型与建筑空调能耗预测、能源工程领域相结合的可行性。通过对历史能耗数据的挖掘与学习,训练并测试出相应的SVR模型,用以预测该建筑未来的能耗,为人工智能在建筑节能领域中的应用提供参考。
2 SVR模型建立过程
图3展示了SVR模型的学习过程:将所采集的历史统计数据分为训练集和测试集,统称为数据样本。两种样本均由目标值(逐时能耗值)与特征值(影响能耗值的变量因素)组成,即用以训练/测试模型的数据样本应有目标值和特征值的完整描述。在能耗预测模型中,所筛选的特征数应与能耗有较大的相关程度。具体步骤如下[10]:
(1)首先,运用训练集,设置相关参数,完成对数据的学习,生成SVR模型。
(2)其次,将测试集中的特征值输入所生成的SVR模型中,输出通过该模型所得到的预测目标值。
(3)再次,将预测目标值与测试集目标值(真实值)进行对比,评价该模型的性能。
(4)最后,若所获得的模型通过评价达到合格,则可将该模型应用于实际;否则,调整优化模型参数设置,重新训练模型。
显然,拥有充足的样本数有助于训练模型精度的提升,充分和准确的能耗数据对模型的评价十分重要。因此,在训练模型之前,如何收集足够多的数据样本是模型开发的首要问题。通常的收集方法是通过安装于现场实地的传感器监测采集历史数据。然而,由于影响能耗值的因素较多,实际测量难以获取每个变量的逐时时间序列,造成数据颗粒度不足,且测量耗时长,可能测量误差。本文的主要目的是探究人工智能模型在能耗预测中的可行性,通过合理地设置与校准仿真软件,采用模拟的方法可以产生与实际很接近的数据[11]。此处采用DeST能耗模拟软件,建立了一个虚拟的三维建筑模型,设置相关的边界条件,输出建筑内空调系统的逐时能耗及各个影响因素的瞬时值作为历史数据样本,即认为此时能耗模拟数据就是真实数据。
3 建筑模型假设
现建立一个简易模型,为一栋位于杭州地区的三层办公楼,围护结构热工性能均满足国家标准GB 50189–2015《公共建筑节能设计标准》[12]。夏季室内制冷的空调系统采用风机盘管+新风的半集中形式,冷源为冷水机组,机组恒温出水(7℃),一次泵定流量运行。室内设计温度为26℃,空调开启时间为每日8:00~17:00。以8月份整个月份的逐时能耗(此处的能耗为整个空调系统,包括了冷水机组+水泵+风机盘管+新风机组)作为研究对象——其中,1日至25日的能耗数据作为训练集(10×25=250个样本)进行模型的学习,26日至31日的能耗数据作为测试集(10×6=60个样本)以判断预测模型的精确度。
图4 办公楼标准层平面图及三维建筑模型
DeST能耗模拟软件对整个建筑及系统有完整的描述,如表1所示。
表1 杭州某办公楼热环境外扰/内扰条件
仿真的过程如图5所示。
图5 建筑能耗模拟过程
特征数作为变量是影响能耗的重要因素。特征数的选取极大地影响模型的性能,对于模型的开发而言是重要的。一般而言,所选取的特征数与目标值相关程度越高,预测就越准确。然而,并非特征数的数量越多越好,盲目追求提高预测精度会引发“维数灾难”(随着特征数的增加,计算量呈指数倍增长的一种现象)。合理地筛选最契合目标值的特征数,可以对模型进行简化,起到减少训练时间的作用[13]。此处给定了六个影响能耗的特征数,认为他们与能耗大小的相关程度较高,包括:1、室外温度2、太阳辐射量3、新风负荷4、室内人员数5、冷水机组回水温度6、冷水机组COP,即这六个特征数构成了预测模型的支持向量(SV,Support Vector)。因此,建立SVR模型过程的拓扑图如图6所示。
图6 支持向量拓扑图
表2为通过能耗模拟所得出的用作训练与测试的数据样本。数据集的每个样本都是以单位小时为时间序列的数值。基于训练集来表示目标对特征的依赖关系,产生高预测精度的高性能模型,而通过测试集来评价模型的预测性能。
表2 训练集样本与测试集样本
进一步地设置相应的参数建立SVR模型:支持向量机的类型选取ε—SVR;核函数的类型选取RBF径向基函数,其易于使用且很好地解决了非线性问题;最好的模型参数应该具有很好的预测未知数据的能力而不会引起过拟合问题,由“循环遍历算法”计算所得的惩罚因子(表征对离群点的重视程度)C=10000,参数gamma=0.025。
4 预测结果分析评价
将测试集中的目标值(真实值,图中的蓝线)与训练出的SVR模型所得出的预测值(图中的红线)绘制于同一曲线图中进行对比,数据样本是8月26日8时至8月31日17时的总计60个样本(NO.251~NO.310)。采用式(5)“均方误差(MSE,Mean Square Error)(图中的绿线)”作为评价指标[14],判断经训练后的模型的准确性。
式中:ytrue为真实值,yprediction为预测值。
从图7中可以看出,基于历史数据拟合出来的SVR模型的预测性能非常好,测试集中的目标值与预测值十分接近。两者总体的均方误差MSE=0.015。此时,可认为所建立的SVR模型合理,精确度达标。分析拟合程度如此高的原因:一方面,能耗值(目标值)与影响因素(特征值)之间的规律性极强,能耗对所选择的6个特征数展示出很好的依赖性。另一方面,SVR模型在数据挖掘方面的性能良好,泛化能力强,适用于能耗数据的回归拟合。
图7 真实值与SVR模型预测值的对比结果
既然依据上述步骤,通过历史数据的训练集训练出了SVR模型,又通过测试集验证了模型的精确性及可靠性。那么,此模型便可用以分析未来的某一特定条件下的能耗值。任意给定上述特征数的具体数值,便可以计算出在此种边界条件的描述下建筑空调的能耗。例如,现任意给定一组特征数——室外温度35℃,太阳辐射量200W/m2,新风负荷100kW,室内人员数100人,冷水机组回水温度10℃,冷水机组COP值5,则通过该模型预测的空调系统能耗为35.0876 kW·h。
5 结论
本文阐述了人工智能模型与建筑能耗预测两者相结合的可行性。针对模拟搭建的一栋位于杭州的办公建筑,通过模型的介绍、能耗的仿真、参数的设置、特征数的选取以及预测性能的评价等步骤,建立了关于该栋建筑空调系统能耗预测的SVR模型,得出的结论如下:基于历史数据集训练得出的SVR模型,挖掘了数据中的潜在信息。经测试后,其预测值与真实值的总体方均误差仅为0.015,模型的精确性合格,能够用于预测未知未来的能耗。可见,支持向量回归模型SVR可以用来解决非线性、多影响因素的回归问题,即使少量的数据样本,只要模型选择和参数设置合理,可以提供非常准确的预测,为建筑能耗的预测与分析提供了一种方法与参考。
参考文献
[1] 陈凯, 朱钰. 机器学习及其相关算法综述[J]. 统计与信息论坛, 2007, 22(5):105–112.
[2] 谷立静, 郁聪. 我国建筑能耗数据现状和能耗统计问题分析[J]. 中国能源, 2011, 33(2):38–41.
[3] 丁勇, 刘学, 黄渝兰,等. 空调系统节能量测量与验证方法的应用分析[J]. 暖通空调, 2018, 48(07):47–54.
[4] 中国建筑科学研究院. GBT 51161–2016, 民用建筑能耗标准[S]. 北京:中国建筑工业出版社,2016:9.
[5] Mocanu E, Nguyen P, Gibescu M , et al. Deep learning for estimating building energy consumption[J]. Sustainable Energy, Grids and Networks, 2016, 6(6):91–99.
[6] Ahmad A S , Hassan M Y , Abdullah M P , et al. A review on applications of ANN and SVM for building electrical energy consumption forecasting [J]. Renewable and Sustainable Energy Reviews, 2014, 33(5):102–109.
[7] Constantine E.Kontokosta,ChristopherTull. A data-driven predictive model of city-scale energy use in buildings [J]. Applied Energy, 2017, 197(1):303–317.
[8] 丁世飞, 齐丙娟, 谭红艳. 支持向量机理论与算法研究综述[J]. 电子科技大学学报, 2011, 40(1):2–10.
[9] 陈博, 郑凯东, 王家华. 多核支撑向量回归方法研究[J]. 智能计算机与应用,2019, 9(01):191–194.
[10] 弗雷德里克.马尔古斯. 建筑能耗分析中的数据挖掘与机器学习[M]. 赵海祥等,译.北京:机械工业出版社, 2018:48–51.
[11] 燕达, 陈友明, 潘毅群, 等. 我国建筑能耗模拟的研究现状与发展[J]. 建筑科学, 2018, 34(10):130–138.
[12] 住房和城乡建设部标准定额研究所. GB 50189-2015, 公共建筑节能设计标准[S]. 北京:中国建筑工业出版社, 2015:10–11.
[13] 陈启买, 陈森平. 支持向量机的一种特征选取算法[J]. 计算机工程与应用, 2009, 45(23):49–51.
[14] 李云雁, 胡传荣. 试验设计与数据处理.第2版[M]. 化学工业出版社,2017:146–147.
备注:本文收录于《建筑环境与能源》2019年5月刊总第21期。
版权归论文作者所有,任何形式转载请联系作者。