展开

集成方法

最后发布时间 : 2023-04-23 17:01:22 浏览量 :

Bagging meta-estimator

Forests of randomized trees

sklearn.ensemble模块包括两种基于随机决策树的平均算法:RandomForest算法和Extra trees方法。这两种算法都是专门为树设计的扰动和组合技术[B1998]。这意味着通过在分类器构造中引入随机性来创建一组不同的分类器。集合的预测被给出为各个分类器的平均预测。

与其他分类器一样,森林分类器必须配备两个阵列:保持训练样本的形状(n_samples,n_features)的稀疏或密集阵列X,和保持训练样本目标值(类标签)的形状(n_samples,)的阵列Y:

from sklearn.ensemble import RandomForestClassifier
X = [[0, 0], [1, 1]]
Y = [0, 1]
clf = RandomForestClassifier(n_estimators=10)
clf = clf.fit(X, Y)
clf.predict([[2., 2.]])
clf.predict_proba([[2., 2.]])

Mean Decrease Accuracy
没有每种代谢物的情况下对模型性能的衡量。较高的值表示该代谢产物在预测组(糖尿病组与健康组)中的重要性。去除该代谢物会导致模型失去预测的准确
把一个变量的取值变为随机数,随机森林预测准确性的降低程度。该值越大表示该变量的重要性越大。

Mean Decrease Gini
计算每个变量对分类树每个节点上观测值的异质性的影响,从而比较变量的重要性。该值越大表示该变量的重要性越大

How many bacteria were included when you calculated Mean Decrease Accuracy and Mean Decrease Gini