CASIA -HWDB2.0-2.2和OLHWDB2.0-2.2数据集解析
CASIA -HWDB2.0-2.2数据集解析
- 下载地址
- 数据集解释
- HWDB解析dgrl为图像和txt 标签
-
- 转换代码
- OLHWDB数据集wptt 解析成图像
-
- 转换代码
- 生成class 唯一值文本
- 生成 训练标签对文本 imgpath/1.jpg label
下载地址
http://www.nlpr.ia.ac.cn/databases/handwriting/Download.html
数据集解释
HWDB2.0-2.2是一个手写汉字文本识别数据集,包含多个版本的训练集和测试集。每个版本的训练集和测试集都包含多个DGRL文件,每个DGRL文件包含多个文本行。其中,HWDB2.0包含了大约37,000个汉字,HWDB2.1包含了大约45,000个汉字,HWDB2.2包含了大约52,000个汉字。这些数据集可以用于训练和测试手写汉字识别模型。
OLHWDB2.0-2.2是一个在线手写汉字识别数据集,也包含多个版本的训练集和测试集。每个版本的训练集和测试集都包含多个WPTT文件