本文最后更新于:星期二, 八月 2日 2022, 9:32 晚上

不要停下来啊!

时间序列基本规则法
提取时间序列的周期性特征进行预测,参考:时间序列规则法快速入门
观察序列,当序列存在周期性时,可以用线性回归-利用时间特征做线性回归做为baseline

时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。

时间序列分析的主要目的是根据已有的历史数据对未来进行预测。与面板数据不同,面板数据侧重于同一时间点不同样本的数值,而时间序列侧重于同一统计指标在时间的不同点的数值。时间序列有两个重要指标,一个是资料所属的时间,另一个是时间上的统计指标数值。时间序列可以描述社会经济现象在不同时间的发展状态和过程,也可以根据历史数据进行合理的未来推测。

一般地,我们认为一个随机游走的变量会服从正态分布。

提取时间的周期性特点做为特征,此时训练集每条样本为”时间特征->目标值”,时间序列的依赖关系被剔除,不需要严格依赖滑窗截取训练样本。常见是将时间用0-1哑变量表达,有以下若干种特征:

  • 将星期转化为了0-1变量,从周一至周天,独热编码共7个变量
  • 将节假日转化为0-1变量,视具体节假日数目,可简单分为两类,”有假日”-“无假日”,独热编码共2个变量;或赋予不同编码值,如区分国庆、春节、劳动节等使用1、2、3表示
  • 将月初转化为0-1变量,简单分两类表示为”是月初”-“非月初”,共2个特征
  • 类似的月中、月初可以转化为0-1变量
  • 控制时间粒度,区分是weekday or weekend

按列提取中位数是一种简单而有效的提取周期因子的方法。中位数十分鲁棒,不受极端值的影响。但中位数损失了很多信息。实践中,可以在此基础上进一步优化。比如可以提取一个均值和一个中位数,然后将均值和中位数融合。融合的比例按照测试集的表现来确定。也可以根据与预测周的时间距离来赋予不同的权重。


notes      Datawhale Data Mining Time Series Analysis

本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!