威斯康星大学乳腺癌诊断数据(Wisconsin Diagnostic Breast Cancer,WDBC)

发布时间:2023-12-22浏览量:

1. 数据集名称:

Wisconsin Diagnostic Breast Cancer (WDBC)

2. 数据集基本情况:

•项目背景:

–该数据集由美国威斯康星大学提供,是由William H. Wolberg博士及其合作者在20世纪90年代从麦迪逊的威斯康星大学医院收集的。目的是为了借助图像处理技术得到的细胞特征,通过选择恰当的特征组合,创建一个高精度的乳腺癌诊断系统。该数据集可通过UCI机器学习存储库公开获取。

•样本量:

–数据集包含569个样本,其中良性样本357个,恶性样本212个。

•其他重要信息:

–数据集中的特征是从乳房肿块的细针穿刺(FNA)的数字化图像计算出来的。对569张图像中存在的每个细胞核计算半径、平滑度、对称性等10个特征,然后对每张图像计算这10个特征的平均值、标准误差和最大(或最差)值,总共得到30个特征。

–数据集的目标变量是二分类的,代表肿瘤的良性(benign)或恶性(malignant)状态。

3. 适用任务:

•乳腺癌预测

•特征选择

•分类模型评估

4. 下载地址:

http://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic

5. 文献出处:

•W. Nick Street, W. H. Wolberg, O. L. Mangasarian, 'Nuclear feature extraction for breast tumor diagnosis,' Proc. SPIE 1905, Biomedical Image Processing and Biomedical Visualization, (29 July 1993); https://doi.org/10.1117/12.148698

•利用该数据集进行研究的文献http://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic