数据集来源于数智重庆.全球产业赋能创新大赛智能算法赛:瓶装白酒疵品质检: https://tianchi.aliyun.com/competition/entrance/231763/introduction 。
酒瓶生产线一般有三到五个质检环节,分别检测不同类型的瑕疵。在瓶装酒生产过程中可能会受到原材料酒瓶质量、罐装加工工艺等因素的影响产品质量,酒瓶会存在各类瑕疵。由于瑕疵种类多样、有的瑕疵体积小不易察觉,瓶装酒厂家往往需要投入大量人力成本用于产品质检。高效、可靠的自动化质检能够降低大量人工成本,创造经济效益。本数据集就是在这样的背景下推出的,目标是希望通过计算机视觉以及人工智能等技术手段来帮助瓶装酒生产企业提高质检效率以及效果、降低质检成本。
本数据集瓶装酒的瑕疵分为3个大类:瓶盖瑕疵、标贴瑕疵、喷码瑕疵,以下列举部分瑕疵示例图像。
注: 由于拍摄目标的不同,拍摄的图像可以分为两种,一种是单独针对瓶盖(瓶盖、喷码),另一种是单独针对瓶身(标贴),两类图像的宽高有较大差异。
以下以“样本”指代瓶装酒。本数据集提供瓶装酒样本不同角度、位置、时刻拍摄的图像以及对应的标注。由于样本造型结构的复杂性,单个样本可能需要多角度拍摄才能捕捉其中的瑕疵(比如瓶盖破口、喷码异常等)。酒液中的瑕疵不易分辨,拍摄时会对样本进行一定晃动并在不同时刻连续拍摄多张图像以捕捉酒液中瑕疵的动态特征。
所有瑕疵类型如下图:
瓶盖部分 | 标贴部分 | 喷码部分 |
---|---|---|
瓶盖破损 | 标贴歪斜 | 正常喷码 |
瓶盖变形 | 标贴起皱 | 异常喷码 |
瓶盖坏边 | 标贴气泡 | |
瓶盖打旋 |
图像都存放在images
文件夹,图像后缀为.jpg。标注文件为annotations.json
。标注采用类似MSCOCO数据集的标注格式(http://cocodataset.org),数据结构如下
{
"images":
[
{"file_name":"cat.jpg", "id":1, "height":1000, "width":1000},
{"file_name":"dog.jpg", "id":2, "height":1000, "width":1000},
...
]
"annotations":
[
{"image_id":1, "bbox":[100.00, 200.00, 10.00, 10.00], "category_id": 1}
{"image_id":2, "bbox":[150.00, 250.00, 20.00, 20.00], "category_id": 2}
...
]
"categories":
[
{"id":0, "name":"bg"}
{"id":1, "name":"cat"}
{"id":1, "name":"dog"}
...
]
}
标注文件中,"images"
关键字对应图片信息;
"annotations"
关键字对应标注信息;
"categories"
对应类别信息:
"images": 该关键字对应的数据中,每一项对应一张图片,"file_name"
对应图片名称,"id"
对应图片序号,"height"
和"width"
分别对应图像的高和宽。
"annotations": 该关键字对应的数据中,每一项对应一条标注,"image_id"
对应图片序号,"bbox"
对应标注矩形框,顺序为[x, y, w, h],分别为该矩形框的起始点x坐标,起始点y坐标,宽、高,单位为像素。"category_id"
对应类别序号。
"categories": 该关键字对应的数据中,每一项对应一个类别,"id"
对应类别序号,"name"
对应类别名称。
关键字关联说明:
"annotations"
中的元素通过"image_id"
关联图像,比如"image_id":2
,该条标注信息对应"images"
中"id"
为2的图像。"annotations"
中的元素通过"category_id"
关联类别,比如"category_id":2
,该条标注信息对应"categories"
中"id"
为2的类别。例: 在上面列出的数据结构中
{"image_id":1, "bbox":[100.00, 200.00, 10.00, 10.00], "category_id": 1}
这条标注信息通过"image_id"
可以找到对应的图像为"cat.jpg"
,通过"category_id"
可以找到对应的类别为"cat"
。
背景图片说明:
"annotations"
中的元素,"category_id":0
对应的是背景。当且仅当一张图片对应的所有annotations中,"category_id"
都为0,该图片为背景图片。
类别和类别序号(category_id)的对应关系:
{
0: '背景',
1: '瓶盖破损',
2: '瓶盖变形',
3: '瓶盖坏边',
4: '瓶盖打旋',
5: '瓶盖断点',
6: '标贴歪斜',
7: '标贴起皱',
8: '标贴气泡',
9: '喷码正常',
10: '喷码异常'
}
如果您在研究中使用了本数据集,请按照如下方式引用:
@misc{
title={瓶装白酒疵品检测数据集}
url={https://tianchi.aliyun.com/dataset/dataDetail?dataId=110147}
author={Tianchi},
year={2021}
}
该数据集遵循协议: CC BY-NC 4.0