主要包括六个模块,其中四个模块为分类,回归,聚类,降维的算法模块,两个其他模型,模型选择评估模块和预处理模块。
一个数据分析流程中涉及的sklearn模块
机器学习项目的一般流程为 数据集获取-》数据预处理-》训练模型-》评估模型-》应用模型
获取数据集,使用dataset模块
1
2
3
4
5from sklearn import datasets
iris = datasets.load_iris()
# 返回一个包含data和target的字典
iris_data = iris.data
iris_target = iris.target包含常用的数据集加载
数据预处理,使用sklearn的Preprocessing模块
包括常用的归一化、one_hot等处理方式
划分数据集,使用model_selection模块中的划分函数(不同的训练集测试集划分方式)
1
2from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_target, test_size=0.2, random_state=42)模型选择,直接导入特定模型
1
2
3
4
5
6
7from sklearn import svm
clf = svm.SVC(gamma=0.001, C=100.)
# 训练模型fit
clf.fit(X_train, y_train)
print(clf.get_params())
# 评价模型
print(clf.score(X_test,y_test))评价模型,使用metircs模块进行评价
1
2from sklearn.metrics import accuracy_score
accuracy_score(y_test, clf.predict(X_test))