ZBLOG

读取数据moon.csv, 数据包含400个平面点的坐标 其中X1,X2分别为横坐标和纵坐标分量,Label为这些点相应的的真实标签。 要求: 1.画出散点图(不同标签颜色不同) 2.忽略真实标签,用k-means对这些点进行聚类分析(分成2类),并生成新的标签(作为新的一列写到原来的moon.csv文件中),将新的聚类标签和原来的标签比较,统计正确分类的比例。最后再计算本聚类算法的轮廓系数 。 3.类似上面思路,分别用层次聚类和DBSCAN算法,统计正确分类的比例。最后再计算各自的...

以下是Python代码示例,使用Pandas、Matplotlib、Scikit-learn库来完成你的要求:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.metrics import silhouette_score

# 读取数据
data = pd.read_csv('moon.csv')

# 绘制散点图
plt.scatter(data['X1'], data['X2'], c=data['Label'])
plt.xlabel('X1')
plt.ylabel('X2')
plt.title('Scatter Plot')
plt.show()

# 聚类分析 - K-means算法
kmeans = KMeans(n_clusters=2)
kmeans.fit(data[['X1', 'X2']])
new_labels_kmeans = kmeans.labels_
data['New_Label_KMeans'] = new_labels_kmeans

# 统计正确分类比例和轮廓系数(K-means)
correct_kmeans = sum(new_labels_kmeans == data['Label']) / len(data)
silhouette_kmeans = silhouette_score(data[['X1', 'X2']], new_labels_kmeans)

# 聚类分析 - 层次聚类算法(Agglomerative Clustering)
agg_clustering = AgglomerativeClustering(n_clusters=2)
new_labels_agg = agg_clustering.fit_predict(data[['X1', 'X2']])
data['New_Label_Agg'] = new_labels_agg

# 统计正确分类比例和轮廓系数(层次聚类)
correct_agg = sum(new_labels_agg == data['Label']) / len(data)
silhouette_agg = silhouette_score(data[['X1', 'X2']], new_labels_agg)

# 聚类分析 - DBSCAN算法
dbscan = DBSCAN(eps=0.3, min_samples=5)
new_labels_dbscan = dbscan.fit_predict(data[['X1', 'X2']])
data['New_Label_DBSCAN'] = new_labels_dbscan

# 统计正确分类比例和轮廓系数(DBSCAN)
correct_dbscan = sum(new_labels_dbscan == data['Label']) / len(data)
silhouette_dbscan = silhouette_score(data[['X1', 'X2']], new_labels_dbscan)

# 将新的聚类标签和原始数据保存到CSV文件中
data.to_csv('moon_with_new_labels.csv', index=False)

print("K-means: Correct Classification:", correct_kmeans, "Silhouette Score:", silhouette_kmeans)
print("Agglomerative Clustering: Correct Classification:", correct_agg, "Silhouette Score:", silhouette_agg)
print("DBSCAN: Correct Classification:", correct_dbscan, "Silhouette Score:", silhouette_dbscan)

上述代码首先读取”moon.csv”文件,绘制散点图。然后使用K-means算法、层次聚类算法和DBSCAN算法进行聚类分析,并将新的聚类标签添加到原始数据中。接下来统计每个算法的正确分类比例和轮廓系数,并将包含新标签的数据保存到”moon_with_new_labels.csv”文件中。

请注意,对于不同的数据集,聚类参数需要根据实际情况进行调整以获得最佳结果。


内容由零声教学AI助手提供,问题来源于学员提问

本站部分文章来源于网络,版权归原作者所有,如有侵权请联系站长删除。
转载请注明出处:https://golang.0voice.com/?id=14443

分享:
扫描分享到社交APP
上一篇
下一篇
发表列表
游客 游客
此处应有掌声~
评论列表

还没有评论,快来说点什么吧~

联系我们

在线咨询: 点击这里给我发消息

微信号:3007537140

上班时间: 10:30-22:30

关注我们
x

注册

已经有帐号?