SKlearn各个模块解释

时间：2026-05-02 06:53:27

1、train_test_split：设置训练、测试数据集的数据量分配。

功能：从样本膨常中随机的按比例选取train data和test data。调用形式为：

X_train, X_test, y_train, y_test = cross_validation.train_test_split(train_data, train_target, test_size=0.4, random_state=0)

test_size是样本占比。如果是整数的话就是样本的数量。random_state是随机数的种子。不同的种子会造亲新距成不同的随机采样结果。相同的种子采样结果相同。

from sklearn.cross_validation import train_test_split

在sklearn版本为0.18以上时，会报一下错误：

需要把以上引用改为：

from sklearn.model_selection import train_test_split

即可。

SKlearn各个模块解释

2、如何创建分类器对象、用训练数据进行拟合分类器模型、用训练好的模型进行预测。

>>> from sklearn.svm import SVC ＃导入svm的svc类（支持向量分类）

>>> clf = SVC() ＃创够沟建分类器对象

>>> clf.fit(X, y) ＃用训练数据拟合分类器模型

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,

decision_function_shape=None, degree=3, gamma='auto', kernel='rbf',

max_iter=-1, probability=False, random_state=None, shrinking=True,

tol=0.001, verbose=False)

>>> clf.predict([[-0.8, -1]]) ＃用训练好的分类器去预测[-0.8, -1]数据的标签

SKlearn各个模块解释