本文最后更新于:星期二, 八月 2日 2022, 9:32 晚上
我也是加把劲骑士!
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
那特征工程是什么?
特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。
特征工程又包含了 Data PreProcessing(数据预处理)、Feature Extraction(特征提取)、Feature Selection(特征选择)和 Feature construction(特征构造)等子问题,本章内容主要讨论特征构造的方法。
创造新的特征是一件十分困难的事情,需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。
——Andrew Ng
对于时间型数据来说,即可以把它转换成连续值,也可以转换成离散值。
1.连续值时间特征
持续时间(单页浏览时长);间隔时间;上次购买/点击离现在的时长;产品上线到现在经过的时长;2.离散值时间特征
1)时间特征拆解
年;月;日;时;分;数;一天中的第几分钟;星期几;一年中的第几天;一年中的第几个周;一天中哪个时间段:凌晨、早晨、上午、中午、下午、傍晚、晚上、深夜;一年中的哪个季度;
2)时间特征判断
是否闰年;是否月初;是否月末;是否季节初;是否季节末;是否年初;是否年尾;是否周末;是否公共假期;是否营业时间;两个时间间隔之间是否包含节假日/特殊日期;
notes Datawhale Data Mining Time Series Analysis
本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!