请教一下关于中文训练的问题。

首先，是生成mdb文件。 因为readlines() 读不出来中文。 可以考虑用utf-8编码读入，但是编码后又该怎么办呢？  我怕格式对不上，中英文编码占得字节数不一样。比如，0：0，1:1，...9:9,10：a，11：b，这种对应关系，我不知道怎么让utf-8编码与类别对应。
其次，是字典。我在其他讨论中看到有说替换list ，生成自动中文字典的。没搞懂啥意思，我只知道voc_type对应值决定了大写小写数字之类的。 5555555555555
然后，是预训练模型，提供的是英文的，我是不是需要从头开始训练中文的模型呢？ 因为模型是矫正识别一体的，不能只训练矫正模型嘛。
还有我之前用您提供的CVPR2016的mdb文件训练时，训练到一半停止了（好像是内存不够）？ 我是两块2080ti。需要换更大的吗？

希望大佬能帮帮我，这个项目的效果挺棒的，只是现在需要在中文环境使用，束手无策了 = =。



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

请教一下关于中文训练的问题。 #89

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

请教一下关于中文训练的问题。 #89

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions