特征创建的类别
在特征创建过程中,考虑要创建的特征类型会很有帮助。特征将根据领域知识创建,根据数据中的模式生成,通过现有特征的组合得出。我们将这些类别称为领域特定、数据驱动或合成特征。领域特定:从特定领域知识创建新特征。特征基于业务规则、特定兴趣或行业标准。
数据驱动:通过发现数据中的模式来创建新特征,例如计算平均值、分组或相互关联的特征。
合成:通过合并现有特征或合成新的数据点来创建新特征。
功能创建技巧
为了有效,特征必须以模型可以理解 哥斯达黎加电报数据 的方式与目标相关。特征工程是一个数据准备、模型训练、性能评估和特征改进的迭代过程。例如,线性模型只能掌握线性相关性。因此,在使用线性回归模型时,你的目标是调整特征以与目标建立线性关系。
这里的基本概念是,对特征应用的任何变换本质上都会集成到模型本身中。例如,考虑根据一边的长度预测多边形地块的价格。直接将线性模型拟合到长度会产生不令人满意的结果,因为关系不是线性的。更好的选择是计算面积,或者利用领域知识确定可用于商业利益的面积。
回顾一下特征的目标和目的:在确定要采用哪些特征工程技术时,请记住要为该模型选择优化的模型类型。此外,在创建新特征时,请确保它们具有预测潜力,而不仅仅是为了预测而创建。
Dataiku 的自动特征生成
Dataiku 的自动特征生成
頁:
[1]