python数据挖掘代码
python# 导入所需的库
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
# 生成示例数据集
X, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
# 使用 KMeans 聚类算法拟合数据
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
y_kmeans = kmeans.predict(X)
# 可视化聚类结果
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=50, cmap='viridis')
# 绘制聚类中心
centers = kmeans.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5)
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('KMeans Clustering')
plt.show()
这段代码的主要步骤包括:
导入所需的库,包括 numpy、matplotlib 和 scikit-learn 中的 KMeans 算法。使用 make_blobs 函数生成一个示例数据集,其中包含 300 个样本,分布在 4 个簇中。使用 KMeans 聚类算法拟合数据,并预测每个样本所属的簇。使用 matplotlib 可视化聚类结果,将样本点按照预测的簇进行着色,并标记出聚类中心。
当进行数据挖掘时,除了简单的聚类分析,还可以进行其他类型的分析,如分类、回归、关联规则挖掘等。
python# 导入所需的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target
# 将数据集分割为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 创建 KNN 分类器并拟合训练数据
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
# 在测试集上进行预测
y_pred = knn.predict(X_test)
# 计算分类准确率
accuracy = metrics.accuracy_score(y_test, y_pred)
print("分类准确率:", accuracy)
这段代码的主要步骤包括:
导入所需的库,包括加载鸢尾花数据集、数据集分割函数、K近邻分类器以及性能评估指标。加载鸢尾花数据集,并将特征数据和目标数据分别赋给 X 和 y。将数据集分割为训练集和测试集,其中训练集占 70%,测试集占 30%。创建 K 近邻分类器,并使用训练集数据进行拟合。使用训练好的分类器在测试集上进行预测。使用准确率作为分类性能的评估指标,计算并打印在测试集上的分类准确率。