威斯康星大学乳腺癌诊断数据(Wisconsin Diagnostic Breast Cancer,WDBC)
发布时间:2023-12-22浏览量:1. 数据集名称:
Wisconsin Diagnostic Breast Cancer (WDBC)
2. 数据集基本情况:
•项目背景:
–该数据集由美国威斯康星大学提供,是由William H. Wolberg博士及其合作者在20世纪90年代从麦迪逊的威斯康星大学医院收集的。目的是为了借助图像处理技术得到的细胞特征,通过选择恰当的特征组合,创建一个高精度的乳腺癌诊断系统。该数据集可通过UCI机器学习存储库公开获取。
•样本量:
–数据集包含569个样本,其中良性样本357个,恶性样本212个。
•其他重要信息:
–数据集中的特征是从乳房肿块的细针穿刺(FNA)的数字化图像计算出来的。对569张图像中存在的每个细胞核计算半径、平滑度、对称性等10个特征,然后对每张图像计算这10个特征的平均值、标准误差和最大(或最差)值,总共得到30个特征。
–数据集的目标变量是二分类的,代表肿瘤的良性(benign)或恶性(malignant)状态。
3. 适用任务:
•乳腺癌预测
•特征选择
•分类模型评估
4. 下载地址:
•http://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic
5. 文献出处:
•W. Nick Street, W. H. Wolberg, O. L. Mangasarian, 'Nuclear feature extraction for breast tumor diagnosis,' Proc. SPIE 1905, Biomedical Image Processing and Biomedical Visualization, (29 July 1993); https://doi.org/10.1117/12.148698
•利用该数据集进行研究的文献http://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic