集成方法

最后发布时间 : 2023-04-23 17:01:22 浏览量 :

Bagging meta-estimator

Forests of randomized trees

sklearn.ensemble模块包括两种基于随机决策树的平均算法：RandomForest算法和Extra trees方法。这两种算法都是专门为树设计的扰动和组合技术[B1998]。这意味着通过在分类器构造中引入随机性来创建一组不同的分类器。集合的预测被给出为各个分类器的平均预测。

与其他分类器一样，森林分类器必须配备两个阵列：保持训练样本的形状（n_samples，n_features）的稀疏或密集阵列X，和保持训练样本目标值（类标签）的形状（n_samples，）的阵列Y：

from sklearn.ensemble import RandomForestClassifier
X = [[0, 0], [1, 1]]
Y = [0, 1]
clf = RandomForestClassifier(n_estimators=10)
clf = clf.fit(X, Y)
clf.predict([[2., 2.]])
clf.predict_proba([[2., 2.]])

Mean Decrease Accuracy
没有每种代谢物的情况下对模型性能的衡量。较高的值表示该代谢产物在预测组（糖尿病组与健康组）中的重要性。去除该代谢物会导致模型失去预测的准确
把一个变量的取值变为随机数，随机森林预测准确性的降低程度。该值越大表示该变量的重要性越大。

Mean Decrease Gini
计算每个变量对分类树每个节点上观测值的异质性的影响，从而比较变量的重要性。该值越大表示该变量的重要性越大

How many bacteria were included when you calculated Mean Decrease Accuracy and Mean Decrease Gini

logistic 回归神经网络