python数据挖掘代码

python
# 导入所需的库 import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.datasets import make_blobs # 生成示例数据集 X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0) # 使用 KMeans 聚类算法拟合数据 kmeans = KMeans(n_clusters=4) kmeans.fit(X) y_kmeans = kmeans.predict(X) # 可视化聚类结果 plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis') # 绘制聚类中心 centers = kmeans.cluster_centers_ plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5) plt.xlabel('Feature 1') plt.ylabel('Feature 2') plt.title('KMeans Clustering') plt.show()

这段代码的主要步骤包括:

导入所需的库,包括 numpy、matplotlib 和 scikit-learn 中的 KMeans 算法。使用 make_blobs 函数生成一个示例数据集,其中包含 300 个样本,分布在 4 个簇中。使用 KMeans 聚类算法拟合数据,并预测每个样本所属的簇。使用 matplotlib 可视化聚类结果,将样本点按照预测的簇进行着色,并标记出聚类中心。

当进行数据挖掘时,除了简单的聚类分析,还可以进行其他类型的分析,如分类、回归、关联规则挖掘等。

python
# 导入所需的库 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn import metrics # 加载鸢尾花数据集 iris = load_iris() X = iris.data y = iris.target # 将数据集分割为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 创建 KNN 分类器并拟合训练数据 knn = KNeighborsClassifier(n_neighbors=3) knn.fit(X_train, y_train) # 在测试集上进行预测 y_pred = knn.predict(X_test) # 计算分类准确率 accuracy = metrics.accuracy_score(y_test, y_pred) print("分类准确率:", accuracy)

这段代码的主要步骤包括:

导入所需的库,包括加载鸢尾花数据集、数据集分割函数、K近邻分类器以及性能评估指标。加载鸢尾花数据集,并将特征数据和目标数据分别赋给 X 和 y。将数据集分割为训练集和测试集,其中训练集占 70%,测试集占 30%。创建 K 近邻分类器,并使用训练集数据进行拟合。使用训练好的分类器在测试集上进行预测。使用准确率作为分类性能的评估指标,计算并打印在测试集上的分类准确率。