酷鱼t40装机5000_鱼巢酷鱼t40「酷鱼t40安装教程」

  缅甸联邦共和国,原名缅甸,是东南亚的一个国家,从1962年到2010年,缅甸不停被政变后上台的军当局统治,直至近来5年它才对外界开放,与其他国家创建了贸易与文化接洽。

酷鱼t40装机5000_鱼巢酷鱼t40 酷鱼t40装机5000_鱼巢酷鱼t40「酷鱼t40安装教程」 行业资讯

  缅甸语由很多方言构成,但全部方言都共享一个核心字母表,该核心字母表重要用于正式文本和印刷媒体,有33个辅音和12个辅助字符,地区方言大概还利用其他字符,完备列表约莫有核心字母表的三倍大。荣幸的是,我们的工作是辨认利用盛行的至少10点巨细的缅甸3字体誊写的标准缅甸文本,文本图像可以是灰度、好坏或彩色的,分辨率至少有300dpi,下面是典范的缅甸文本样板:

  在项目开端阶段,我们必须实现75%的OCR正确度,最小目标准确度为94%。

  缅甸脚本就是所谓的alphasyllabary,在这里每一个辅音字母也都转达“默认”元音声,其他元音声利用特别字符和辅音上面、下面、前面、背面的变音符号乃至辅音四周的变音符号转录。

  字母大多由半圆构成,由于在已往,文本都是写在棕榈叶上,很轻易被直线切口破坏。

  缅甸语是一种有声调的语言,有三个重要声调—高、低和嘎吱声,和两个次要声调—入耳调和降调。

  由于声调也要在誊写中举行转录,缅甸脚本实际上有两种可分辨的符号,大概放在重要字母上面、下面或同时放在重要字母的上面和下面,这两种层叠的可分辨体系给OCR软件带来了庞大挑衅,但不但仅云云。

  若要让事变变得更复杂,有些字母组合可以融合在一起形成新字符。

  在大多数通例术语中,光学字符辨认如雷贯耳。当OCR软件收到图像文件时,它会利用OCR技能实行一些开端处理惩罚,将图像转换为好坏文本并改正看得见的扭曲,接下来检测包罗差别范例文本(标题、正文、脚注)、照片和表格的地区,文本块随后分析成行,行再到单词,单词再到字母,单个字母辨认完成之后,文本将自下至上重组,缅甸文本的图像处理惩罚和板块检测和大多数其他语言里的操纵一样,但是检测文本行是一件棘手的事。

  由于变音符号的丰富性,教电脑辨认短文本行非常困难,这就是缘故起因地点,我们的运算法则利用很多功能表现文本行,此中的一个功能是假造的基线,全部重要字符都位于这个基线上,电脑需知道在那边画一条基线,以便天生有关单个字符的公道假设。

  电脑利用统计数据检测根本文本行,为了网络须要的数据,要观察构成字母的斑点天生的直方图上的峰值,在欧洲字母的直方图上,有三个清楚可见的峰值对应于基线和小写字母的高度:

酷鱼t40装机5000_鱼巢酷鱼t40 酷鱼t40装机5000_鱼巢酷鱼t40「酷鱼t40安装教程」 行业资讯

  然而在缅甸语中,文本行正常宽度以外的浩繁变音符号在直方图中导致额外的统计学上故意义的峰值,为此,我们的最初面向欧洲脚本的运算法则,无法精确地辨认缅甸文本行的紧张参数。

  在下面的图形中,程序精确地检测到了前两行,但没有检测到第三行:

  针对文本行检测运算法则,我们必须要做一些调解,让其同样实用于缅甸文本。

  本文中我们提到的OCR技能指的就是ABBYYFineReader12,更多相干内容,请点击访问你的电脑会阅读缅甸语吗(下)。

客户评论

我要评论