GradientFeatureSelector

GradinetFeatureSelector 的算法来源于 "Feature Gradients: Scalable Feature Selection via Discrete Relaxation"。

GradientFeatureSelector，基于梯度搜索算法的特征选择。

该方法扩展了一个近期的结果，即在亚线性数据中通过展示计算能迭代的学习（即，在迷你批处理中），在线性的时间空间中的特征数量 D 及样本大小 N。
这与在搜索领域的离散到连续的放松一起，可以在非常大的数据集上进行高效、基于梯度的搜索算法。
最重要的是，此算法能在特征和目标间为 N > D 和 N < D 都找到高阶相关性，这与只考虑一种情况和交互式的方法所不同。

用法

from nni.feature_engineering.gradient_selector import FeatureGradientSelector

# 读取数据
...
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

# 初始化 Selector
fgs = FeatureGradientSelector()
# 拟合数据
fgs.fit(X_train, y_train)
# 获取重要的特征
# 此处会返回重要特征的索引。
print(fgs.get_selected_features())

...

也可在 /examples/feature_engineering/gradient_feature_selector/ 目录找到示例。

FeatureGradientSelector 构造函数的参数

order (int, 可选, 默认为 4) - 要包含的交互顺序。较高的顺序可能会更准确，但会增加运行时间。 12 是允许的顺序的最大值。
penatly (int, 可选, 默认为 1) - 乘以正则项的常数。
n_features (int, 可选, 默认为 None) - 如果为 None，会自动根据搜索来选择特征的数量。否则，表示要选择的最好特征的数量。
max_features (int, 可选, 默认为 None) - 如果不为 None，会使用 'elbow method' 来确定以 max_features 为上限的特征数量。
learning_rate (float, 可选, 默认为 1e-1) - 学习率
init (zero, on, off, onhigh, offhigh, 或 sklearn, 可选, 默认为zero) - 如何初始化向量分数。默认值为 'zero'。
n_epochs (int, 可选, 默认为 1) - 要运行的 Epoch 数量
shuffle (bool, 可选, 默认为 True) - 在 Epoch 之前需要随机化 "rows"。
batch_size (int, 可选, 默认为 1000) - 一次处理的 "rows" 数量。
target_batch_size (int, 可选, 默认为 1000) - 累计梯度的 "rows" 数量。当行数过多无法读取到内存中，但估计精度所需。
classification (bool, 可选, 默认为 True) - 如果为 True，为分类问题，否则是回归问题。
ordinal (bool, 可选, 默认为 True) - 如果为 True，是有序的分类。需要 classification 也为 True。
balanced (bool, 可选, 默认为 True) - 如果为 True，优化中每类的权重都一样，否则需要通过支持来对每类加权。需要 classification 也为 True。
prerocess (str, 可选, 默认为 'zscore') - 'zscore' 是将数据中心化并归一化的党委方差，'center' 表示仅将数据均值调整到 0。
soft_grouping (bool, 可选, 默认为 True) - 如果为 True，将同一来源的特征分组到一起。用于支持分组或组内特征的稀疏性。
verbose (int, 可选, 默认为 0) - 控制拟合时的信息详细程度。设为 0 表示不打印，1 或更大值表示打印详细数量的步骤。
device (str, 可选, 默认为 'cpu') - 'cpu' 表示在 CPU 上运行，'cuda' 表示在 GPU 上运行。在 GPU 上运行得更快

fit 函数参数要求

X (数组，必需) - 训练的输入样本，shape = [n_samples, n_features]
y (数组，必需) - 目标值 (分类中为标签，回归中为实数)，shape = [n_samples].
groups (数组, 可选, 默认为 None) - 必需选择为一个单元的列的分组。例如 [0，0，1，2] 指定前两列是组的一部分。形状是 [n_features]。

get_selected_features 函数参数的要求

目前， get_selected_features 函数没有参数。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

GradientFeatureSelector.md

GradientFeatureSelector.md

GradientFeatureSelector

用法

Files

GradientFeatureSelector.md

Latest commit

History

GradientFeatureSelector.md

File metadata and controls

GradientFeatureSelector

用法