SVT:Street View Text数据集图像来源自于Google Street View,数据集种的图像包含好质量和低质量的图像,通常低质量图片居多。
SVT-Perspective:SVT-Perspective(SVTP):从谷歌街景里抠出来的,失真比较严重。
IIIT5k:简介,5K张裁剪好的文字图片,如上图。2K张训练集,3K张测试集。测试集中包含了街景,网络图片等。仅标注62个字符,52个字母以及10个数字。
ICDAR2015:和ICDAR2103数据集类似,只是文本框的格式由矩形框变成四边形,所以写有标签的txt文本前4个数字变为8个数字,代表四边形文本框的四个点,其他规则一样。
ICDAR2013:ICDAR2013数据集为每个图片提供了单词的边界框的标注,每个图片都有属于自己的标注txt文件,以一个单独的图像为例,标注文件每一行代表一个文本目标,前四个数字为坐标信息(x1,y1,x2,y2)是文本框的左上和右下点,目标框为矩形。最后一列是文本的字符内容,如果字体模糊,则用###代替(还包含文字分割标签,具体的可以在数据集官网地址里面看)。
ICDAR2003:文本识别数据集:ICDAR2003 训练集1156张 测试集 1110标签中都是每张图片上对应的单词train.txt和test.txt都是过滤之后的标签(去掉符号和小于3个字符的)。
CUTE80:CUTE80数据集,都是弧形文字,包含了弧形的各个坐标。