0%

sklearn主要模块理解

主要包括六个模块,其中四个模块为分类,回归,聚类,降维的算法模块,两个其他模型,模型选择评估模块和预处理模块。

一个数据分析流程中涉及的sklearn模块

机器学习项目的一般流程为 数据集获取-》数据预处理-》训练模型-》评估模型-》应用模型

  1. 获取数据集,使用dataset模块

    1
    2
    3
    4
    5
    from sklearn import datasets
    iris = datasets.load_iris()
    # 返回一个包含data和target的字典
    iris_data = iris.data
    iris_target = iris.target

    包含常用的数据集加载

  2. 数据预处理,使用sklearn的Preprocessing模块

    包括常用的归一化、one_hot等处理方式

  3. 划分数据集,使用model_selection模块中的划分函数(不同的训练集测试集划分方式)

    1
    2
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_target, test_size=0.2, random_state=42)
  4. 模型选择,直接导入特定模型

    1
    2
    3
    4
    5
    6
    7
    from sklearn import svm
    clf = svm.SVC(gamma=0.001, C=100.)
    # 训练模型fit
    clf.fit(X_train, y_train)
    print(clf.get_params())
    # 评价模型
    print(clf.score(X_test,y_test))
  5. 评价模型,使用metircs模块进行评价

    1
    2
    from sklearn.metrics import accuracy_score
    accuracy_score(y_test, clf.predict(X_test))