200字范文,内容丰富有趣,生活中的好帮手!
200字范文 > 图像中文本区域的位置确定方法 装置 设备及存储介质与流程

图像中文本区域的位置确定方法 装置 设备及存储介质与流程

时间:2021-08-26 10:08:40

相关推荐

图像中文本区域的位置确定方法 装置 设备及存储介质与流程

本发明涉及文本图像识别领域,具体而言,涉及一种图像中文本区域的位置确定方法、装置、设备及存储介质。

背景技术:

文本内容识别是ocr(opticalcharacterrecognition,光学字符识别)数据结构化输出最终文本格式的图像中文字的关键环节,而确定文本内容的行列位置又是文本内容识别的基础。因此,精准、有效的文本内容行列位置是ocr技术输出精确结果的必要条件。精确计算文本行列位置的方法不仅能够辅助ocr技术更加精确地输出待识别的文本内容,还可在服务于诸如保险业务场景中各种单据或卡证的解析时,大幅减少需要人工录入的工作量,节省大量的人力、物力及财力,从而降低成本投入,优化资源配置。

对于具有固定统一的制式且排版格式相同的文本图像,现有的确定文本内容行列位置的方法是通过匹配固定模板、基于固定坐标以确定每一项待识别文本内容。

然而,对于没有固定统一的制式、排版格式不一或者图像周围存在外界文字干扰的文本图像,ocr技术的使用面临着极大的困难。更复杂的是,在自然场景下,对文本图像人为拍摄而成的照片不可避免地存在某些程度的倾斜透视。例如在拍摄票据时,票据可能存在旋转或者纸面凸凹不平,即便校正后也难以保证其完全水平及平整。因此,在上述几种情况下进行文本内容行列位置的确定,目前还没有具体有效的解决方案。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素:

有鉴于此,本发明提供一种图像中文本区域的位置确定方法、装置、电子设备及计算机可读存储介质。

本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。

根据本发明的一方面,提供一种图像中文本区域的位置确定方法,包括:获取待识别图像,所述待识别图像包含文本;对所述待识别图像进行文本定位,获得多个文本区域及各文本区域四个角的坐标信息;以及分别对各文本区域执行位置确定操作,包括:根据选定的基准文本区域的上、下两条边的延长线所构成的区域,确定与所述基准文本区域同属一行的文本区域;根据各行中的各文本区域同一方位的角的横坐标,分别确定各行中的各文本区域的列信息;及根据各行中的各文本区域同一方位的角的纵坐标的平均值,分别确定各文本区域的行信息。

根据本发明的一实施方式,根据选定的基准文本区域的上、下两条边的延长线所构成的区域,确定与所述基准文本区域同属一行的文本区域包括:步骤a)根据各文本区域的左上角的横坐标,确定所述基准文本区域为最左端的文本区域;步骤b)根据由所述基准文本区域的上、下两条边确定的直线方程,确定所述基准文本区域的上、下两条边构成的区域;步骤c)将与所述区域有重叠的文本区域确定为与所述基准文本区域同属一行的文本区域;步骤d)如果存在至少一个与所述基准文本区域同属一行的已确定文本区域,则选择所述至少一个已确定文本区域中未被确定为基准文本区域过的最左端的文本区域为新的基准文本区域,重复执行上述步骤a)~c)。

根据本发明的一实施方式,根据各行中的各文本区域同一方位的角的横坐标,分别确定各行中的各文本区域的列信息包括:根据各行中的各文本区域左上角的横坐标的大小,分别对各行中的各文本区域进行排序;以及根据排序结果,分别确定各行中的各文本区域的列信息。

根据本发明的一实施方式,根据各行中的各文本区域同一方位的角的纵坐标的平均值,分别确定各文本区域的行信息包括:确定所述各行中的各文本区域左上角的纵坐标的平均值;以及根据所述平均值的大小,分别确定各文本区域的行信息。

根据本发明的一实施方式,在分别对各文本区域执行位置确定操作之前,所述方法还包括:根据所述各文本区域四个角的坐标信息,对所述多个文本区域进行归类处理,以使不同类的文本区域在垂直方向上没有重叠;分别对各文本区域执行位置确定操作包括:分别对各类别中的文本区域执行所述位置确定操作。

根据本发明的一实施方式,根据所述各文本区域四个角的坐标信息,对所述多个文本区域进行归类处理包括:依次筛选满足归类条件的两个文本区域并将其归为一类;其中,所述归类条件为所述两个文本区域的左下角的纵坐标中的较大者小于所述两个文本区域的左上角的纵坐标中的较小者。

根据本发明的一实施方式,对所述待识别图像进行文本定位,获得多个文本区域及各文本区域四个角的坐标信息包括:基于经过训练的深度学习文本检测及定位模型,获得所述多个文本区域及各文本区域四个角位置的坐标信息。

根据本发明的另一方面,提供一种图像中文本区域的位置确定装置,包括:图像获取模块,用于获取待识别图像,所述待识别图像包含文本;文本定位模块,用于对所述待识别图像进行文本定位,获得多个文本区域及各文本区域四个角的坐标信息;文本分行模块,用于根据选定的基准文本区域的上、下两条边的延长线所构成的区域,确定与所述基准文本区域同属一行的文本区域;第一确定模块,用于根据各行中的各文本区域同一方位的角的横坐标,分别确定各行中的各文本区域的列信息;以及第二确定模块,用于根据各行中的各文本区域同一方位的角的纵坐标的平均值,分别确定各文本区域的行信息。

根据本发明的再一方面,提供一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种图像中文本区域的位置确定方法。

根据本发明的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种图像中文本区域的位置确定方法。

根据本发明提供的图像中文本区域的位置确定方法,利用文本区域的坐标信息,能够自适应地对图像中所有文本区域进行分行并快速、有效地确定其在图像中的行列信息,克服了文本图像没有固定统一的制式、排版格式不一、周围存在外界文字干扰以及存在倾斜透视等障碍,为后续ocr技术的高效率、高精度格式化输出提供文本基础信息。

另外,根据一些实施例,本发明提供的图像中文本区域的位置确定方法能够在对所有文本区域进行分行操作之前,首先进行初步的分类操作,以减少分行操作时的运算量。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。

附图说明

通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。

图1是根据一示例性实施方式示出的一种图像中文本区域的位置确定方法的流程图。

图2是根据一示例性实施方式示出的另一种图像中文本区域的位置确定方法的流程图。

图3是根据一示例性实施方式示出的再一种图像中文本区域的位置确定方法的流程图。

图4是根据一示例性实施方式示出的再一种图像中文本区域的位置确定方法的流程图。

图5是根据一示例性实施方式示出的再一种图像中文本区域的位置确定方法的流程图。

图6是根据一示例性实施方式示出的一种图像中文本区域的位置确定装置的框图。

图7是根据一示例性实施方式示出的一种电子设备的结构示意图。

图8是根据一示例性实施方式示出的一种计算机可读存储介质的示意图。

图9是根据一示例性实施例示出的确定两个文本区域是否同属一行的示意图。

图10是根据一示例性实施例示出的对文本图像中多个文本区域进行分行处理的示意图。

图11是根据一示例性实施例示出的对多个文本区域进行归类处理的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。

此外,在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

如上所述,对于没有固定统一的制式、排版格式不一或者图像周围存在外界文字干扰的文本图像,ocr技术的使用面临着极大的困难。更复杂的是,在自然场景下,对文本图像人为拍摄而成的照片不可避免地存在某些程度的倾斜透视。例如在拍摄票据时,票据可能存在旋转或者纸面凸凹不平,即便校正后也难以保证其完全水平及平整。就现阶段而言,还没有一种行之有效的解决方案可在上述几种情况下实现文本内容行列位置的高精度确定。

因此,本发明提供一种图像中文本区域的位置确定方法,利用文本区域的坐标信息,能够自适应地对图像中所有文本区域进行分行并快速、有效地确定其在图像中的行列信息,克服了文本图像没有固定统一的制式、排版格式不一、周围存在外界文字干扰以及存在倾斜透视等障碍,为后续ocr技术的高效率、高精度格式化输出提供文本基础信息。更优地,本发明提供的图像中文本区域的位置确定方法能够在对所有文本区域进行分行操作之前,首先进行初步的分类操作,以减少分行操作时的运算量。

下面具体说明本发明各实施方式提供的图像中文本区域的位置确定方法。

图1是根据一示例性实施方式示出的一种图像中文本区域的位置确定方法的流程图。如图1所示的图像中文本区域的位置确定方法例如可以应用于基于ocr技术识别文本图像的场景中。

参考图1,图像中文本区域的位置确定方法10包括:

在步骤s102中,获取待识别图像。

其中,待识别图像包含文本。

在步骤s104中,对待识别图像进行文本定位,获得多个文本区域及各文本区域四个角的坐标信息。

在一些实施例中,对待识别图像进行文本定位,获得多个文本区域及各文本区域四个角的坐标信息可包括:基于经过训练的深度学习文本检测及定位模型,获得多个文本区域及各文本区域四个角位置的坐标信息。需要说明的是,本发明对该模型所采用的训练方法、检测/定位算法等均不做限制,本领域技术人员应理解的是,该步骤可以采用任何可用于对图像中文本区域检测及定位的深度学习模型对待识别图像中的各文本区域进行识别及定位。

通过使用例如经过训练的深度学习文本检测及定位模型,对文本图像进行文本检测,可定位得到呈任意封闭四边形形状的n个文本区域boxi(i=1,2,…,n),进而获得各个文本区域也即各个四边形“左上角”、“右上角”、“左下角”及“右下角”四个点的横纵坐标,分别为(xlti,ylti)、(xrti,yrti)、(xlbi,ylbi)及(xrbi,yrbi)。

在步骤s106中,分别对各文本区域执行位置确定操作,具体包括:

在步骤s1062中,根据选定的基准文本区域的上、下两条边的延长线所构成的区域,确定与基准文本区域同属一行的文本区域。

在步骤s1064中,根据各行中的各文本区域同一方位的角的横坐标,分别确定各行中的各文本区域的列信息。

在步骤s1066中,根据各行中的各文本区域同一方位的角的纵坐标的平均值,分别确定各文本区域的行信息。

根据本发明实施方式提供的图像中文本区域的位置确定方法,利用文本区域的坐标信息,能够自适应地对图像中所有文本区域进行分行并快速、有效地确定其在图像中的行列信息,克服了文本图像没有固定统一的制式、排版格式不一、周围存在外界文字干扰以及存在倾斜透视等障碍,为后续ocr技术的高效率、高精度格式化输出提供文本基础信息。

应清楚地理解,本发明描述了如何形成和使用特定示例,但本发明的原理不限于这些示例的任何细节。相反,基于本发明公开的内容的教导,这些原理能够应用于许多其它实施方式。

图2是根据一示例性实施方式示出的另一种图像中文本区域的位置确定方法的流程图。与图1所示方法10的不同之处在于,图2所示的方法20进一步提供了对图像中所有文本区域进行分行操作的方法,即上述方法10中步骤s1062的一实施例。同样地,如图2所示的图像中文本区域的位置确定方法例如也可以应用于基于ocr技术识别文本图像的场景中。

参考图2,方法10中的步骤s1062包括:

在步骤s202中,根据各文本区域的左上角的横坐标,确定基准文本区域为最左端的文本区域。

仍以上述的n个文本区域boxi(i=1,2,…,n)为例,如可以根据下式(1):

min(xlti,1≤i≤n)---(1)

筛选出位于文本图像最左端的文本区域boxi,以boxi作为初始基准文本区域进行分行操作。或者,也可以各文本区域“左下角”的横坐标xlbi来确定初始基准文本区域。

在步骤s204中,根据由基准文本区域的上、下两条边确定的直线方程,确定基准文本区域的上、下两条边构成的区域。

承上述,可以根据下式(2):

确定出boxi上缘一边所在直线的方程;

可以根据下式(3):

确定出boxi下缘一边所在直线的方程。

也即,初始基准文本区域boxi的上、下两条边构成的区域为由上式(2)和(3)确定的两条直线之间所夹的无限大条形区域。当boxi上、下缘两条边相互平行时,对应的条形区域为双向无限大;当boxi上、下缘两条边不平行时,对应的条形区域为单向无限大。

在步骤s206中,将与该区域有重叠的文本区域确定为与基准文本区域同属一行的文本区域。

承上述,可以根据下式(4):

max(ylbj,ycbj)<min(yltj,yctj)---(4)

初步筛选出所有文本区域中与初始基准文本区域boxi上、下两条边构成的区域有重叠的文本区域boxj。其中,yctj为将boxj左上角的横坐标xltj代入上式(2)求得的纵坐标值,ycbj为将boxj左上角的横坐标xltj代入上式(3)求得的纵坐标值。

也即,满足上式(4)的全部boxj与初始基准文本区域boxi同属一行。相反地,如图9中所示的文本区域boxk显然不满足上式(4),因此boxk与boxi分属两行。

在步骤s208中,如果存在至少一个与基准文本区域同属一行的已确定文本区域,则选择至少一个已确定文本区域中未被确定为基准文本区域过的最左端的文本区域为新的基准文本区域,重复执行上述步骤s202~s206。

承上述,依次筛选所有文本区域中与初始基准文本区域boxi上、下两条边构成的区域有重叠的文本区域boxj,并可根据上式(1),从全部boxj中选出位于最左端的文本区域作为新的基准文本区域boxi’。但需要注意的是,boxi’必须是首次被选为基准文本区域。基于新的基准文本区域boxi’,重复执行上述步骤s202~s206。直至被初筛为与初始基准文本区域boxi同属一行的全部boxj均已被选为新的基准文本区域,说明此时已完整地确定出同属一行的文本区域。

对于文本图像全局而言,重复执行上述步骤s202~s208,即可将所有的文本区域划分为若干行,其中每一个文本区域必然和与其同属一行的至少一个文本区域共同满足上式(4)。

图3是根据一示例性实施方式示出的再一种图像中文本区域的位置确定方法的流程图。与图1所示方法10或图2所示方法20的不同之处在于,图3所示的方法30进一步提供了根据各行中的各文本区域同一方位的角的横坐标,分别确定各行中各文本区域列信息的方法,即上述方法10中步骤s1064的一实施例。同样地,如图3所示的图像中文本区域的位置确定方法例如也可以应用于基于ocr技术识别文本图像的场景中。

参考图3,方法10中的步骤s1064还包括:

在步骤s302中,根据各行中的各文本区域左上角的横坐标的大小,分别对各行中的各文本区域进行排序。

在步骤s304中,根据排序结果,分别确定各行中的各文本区域的列信息。

对于根据例如方法20所确定出的每一行,可以根据其中全部文本区域(boxi)左上角横坐标(xlti)的大小,对同属一行的全部文本区域进行从左到右的排序,并将排序得到的横向位置索引标记为每个文本区域的列信息。对于文本图像全局而言,重复执行上述步骤s302~s304,即可确定出所有文本区域的列信息。

需要说明的是,本发明并不限定以各文本区域左上角的横坐标标记其列信息,只需对各文本区域选择相同的方位角。也即,在一些实施例中,可以以各文本区域的左上角、左下角、右上角或右下角中任一个的横坐标标记其列信息。

图4是根据一示例性实施方式示出的再一种图像中文本区域的位置确定方法的流程图。与图1所示方法10、图2所示方法20或图3所示方法30的不同之处在于,图4所示的方法40进一步提供了根据各行中的各文本区域同一方位的角的纵坐标的平均值,分别确定各文本区域行信息的方法,即上述方法10中步骤s1066的一实施例。同样地,如图4所示的图像中文本区域的位置确定方法例如也可以应用于基于ocr技术识别文本图像的场景中。

参考图4,方法10中的步骤s1066还包括:

在步骤s402中,确定各行中的各文本区域左上角的纵坐标的平均值。

在步骤s404中,根据平均值的大小,分别确定各文本区域的行信息。

对于根据例如方法20所确定出的每一行,可以根据其中全部文本区域(boxi)左上角纵坐标(ylti)计算出平均纵坐标并根据平均纵坐标的大小对划分的若干行进行从上到下的排序。对于文本图像全局而言,可将排序得到的纵向位置索引对应标记为每个文本区域的行信息。

需要说明的是,本发明也并不限定以各文本区域左上角的纵坐标均值标记其行信息,只需对各文本区域选择相同的方位角。也即,在一些实施例中,可以以各文本区域的左上角、左下角、右上角或右下角中任一个的纵坐标均值标记其行信息。

图10是根据一示例性实施例示出的对文本图像中多个文本区域进行分行处理的示意图。不失一般性地,文中均以倾斜文本为例说明,但本发明不以文本区域的被识别姿态为限。对于例如完全水平且平整的票据图像,本发明方法显然同样适用。

参考图10,可根据方法20中的步骤s202确定位于文本图像最左端的文本区域“某某某酒店菜单”为初始基准文本区域,再根据方法20中的步骤s204~s208找到与之相邻且同属一行的文本区域“-04-05”。以此类推,重复执行步骤s202~s208,总共得到四行文本区域。再分别根据方法30及方法40确定各文本区域的列、行信息,标记结果如下表1所示:

表1

图5是根据一示例性实施方式示出的再一种图像中文本区域的位置确定方法的流程图。与上述方法的不同之处在于,图5所示的方法50进一步提供了在对图像中所有文本区域分行之前先对其进行归类处理的方法,即上述任一种方法的一实施例。同样地,如图5所示的图像中文本区域的位置确定方法例如也可以应用于基于ocr技术识别文本图像的场景中。

参考图5,在方法10中的步骤s106之前,方法10还包括:

在步骤s502中,根据各文本区域四个角的坐标信息,对多个文本区域进行归类处理,以使不同类的文本区域在垂直方向上没有重叠。

相对应地,方法10中的步骤s106则为:分别对各类别中的文本区域执行位置确定操作,也即分别对各类别中的文本区域执行步骤s1062~s1066。

在一些实施例中,根据各文本区域四个角的坐标信息,对多个文本区域进行归类处理可包括:依次筛选满足归类条件的两个文本区域并将其归为一类。

其中,归类条件为两个文本区域的左下角的纵坐标中的较大者小于两个文本区域的左上角的纵坐标中的较小者。

承上述,可以将归类条件转化为下式(5):

max(ylbi,ylbj)<min(ylti,yltj)---(5)

根据所有文本区域左上角及左下角的纵坐标,在文本图像中遍历地比较每两个文本区域,可依次筛选出满足上式(5)的两两文本区域。

在归类处理结果的基础上,根据上述方法20、30、40可依次在各类别中实现文本区域的分行及行列信息确定等操作,而无需再从文本图像全局的角度进行划分或标记。

需要说明的是,“以使不同类的文本区域在垂直方向上没有重叠”仅限定“任一类别中的每一个文本区域与其它类别中的全部文本区域在垂直方向上没有重叠”之意,但并不意味着“同一类别的文本区域在垂直方向上一定存在重叠”。换言之,被划归分属两类的两个文本区域一定不满足上式(5),被划归同属一类的两个文本区域有可能满足也有可能不满足上式(5)。

对此,参考图11:类别1中的文本区域a与文本区域b二者显然满足上式(5),文本区域b与文本区域c二者显然也满足上式(5),但是文本区域a与文本区域c二者显然不满足上式(5)。然而,由于归类处理是在文本图像中遍历地比较每两个文本区域:在将文本区域a与其它文本区域进行比较时,可确定文本区域b与文本区域a属于同一类别;而在将文本区域b与其它文本区域进行比较时,则可确定文本区域a、c与文本区域b属于同一类别。

再次参考图10:实际上,该文本图像中的所有文本区域可先通过步骤s502被初步划分为上下两类(如图10中粗虚线两侧所示)。再通过例如方法20中的步骤s202~s208,分别对两个类别中的文本区域进行分行操作,可以确定位于粗虚线上侧一类中的两个文本区域“某某某酒店菜单”及“-04-05”同属一行,位于粗虚线下侧一类中的九个文本区域分属三行,也即整个文本图像中的所有文本区域被划分为四行。因此,无论是直接对所有文本区域进行分行,还是预先对所有文本区域归类后再分别对每一类中的文本区域进行分行,两种方案对图像中文本区域位置的确定结果完全一致。

根据一些实施例,本发明提供的图像中文本区域的位置确定方法能够在对所有文本区域进行分行操作之前,首先进行初步的分类操作,以减少分行操作时的运算量。

需要说明的是,虽然上述方法均以从左侧文本区域开始进行行列定位为例说明,但本领域技术人员应理解的是,根据上述方法所公开的发明构思及内容,上述方法同样可以应用于从右侧文本区域开始进行行列定位的方法中。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由cpu执行的计算机程序。在该计算机程序被cpu执行时,执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。

此外,需要注意的是,上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。

图6是根据一示例性实施方式示出的一种图像中文本区域的位置确定装置的框图。如图6所示的图像中文本区域的位置确定装置例如可以应用于基于ocr技术识别文本图像的场景中。

参考图6,图像中文本区域的位置确定装置60包括:图像获取模块602、文本定位模块604、文本分行模块608、第一确定模块610及第二确定模块612。

其中,图像获取模块602用于获取待识别图像。

其中待识别图像包含文本。

文本定位模块604用于对待识别图像进行文本定位,获得多个文本区域及各文本区域四个角的坐标信息。

在一些实施例中,文本定位模块604还可进一步包括检测定位单元,用于基于经过训练的深度学习文本检测及定位模型,获得多个文本区域及各文本区域四个角位置的坐标信息。

文本分行模块608用于根据选定的基准文本区域的上、下两条边的延长线所构成的区域,确定与基准文本区域同属一行的文本区域。

在一些实施例中,文本分行模块608还可进一步包括:第一确定单元、第二确定单元、第三确定单元及重复执行单元。

其中,第一确定单元用于根据各文本区域的左上角的横坐标,确定基准文本区域为最左端的文本区域。

第二确定单元用于根据由基准文本区域的上、下两条边确定的直线方程,确定基准文本区域的上、下两条边构成的区域。

第三确定单元用于将与区域有重叠的文本区域确定为与基准文本区域同属一行的文本区域。

重复执行单元用于当存在至少一个与基准文本区域同属一行的已确定文本区域时,选择至少一个已确定文本区域中未被确定为基准文本区域过的最左端的文本区域为新的基准文本区域,并指令第一、第二、第三确定单元重复执行其各自功能。

第一确定模块610用于根据各行中的各文本区域同一方位的角的横坐标,分别确定各行中的各文本区域的列信息。

在一些实施例中,第一确定模块610还可进一步包括:横向排序单元及第四确定单元。

其中,横向排序单元用于根据各行中的各文本区域左上角的横坐标的大小,分别对各行中的各文本区域进行排序。

第四确定单元用于根据排序结果,分别确定各行中的各文本区域的列信息。

第二确定模块612用于根据各行中的各文本区域同一方位的角的纵坐标的平均值,分别确定各文本区域的行信息。

在一些实施例中,第二确定模块612还可进一步包括:均值计算单元及第五确定单元。

其中,均值计算单元用于确定各行中的各文本区域左上角的纵坐标的平均值。

第五确定单元用于根据平均值的大小,分别确定各文本区域的行信息。

在一些实施例中,图像中文本区域的位置确定装置60还可包括归类处理模块606,用于在文本分行模块608根据选定的基准文本区域的上、下两条边的延长线所构成的区域,确定与基准文本区域同属一行的文本区域之前,根据各文本区域四个角的坐标信息,对多个文本区域进行归类处理,以使不同类的文本区域在垂直方向上没有重叠。

在一些实施例中,归类处理模块606还可进一步包括遍历筛选单元,用于依次筛选满足归类条件的两个文本区域并将其归为一类。

其中,归类条件例如可以为两个文本区域的左下角的纵坐标中的较大者小于两个文本区域的左上角的纵坐标中的较小者。

根据本发明实施方式提供的图像中文本区域的位置确定装置,利用文本区域的坐标信息,能够自适应地对图像中所有文本区域进行分行并快速、有效地确定其在图像中的行列信息,克服了文本图像没有固定统一的制式、排版格式不一、周围存在外界文字干扰以及存在倾斜透视等障碍,为后续ocr技术的高效率、高精度格式化输出提供文本基础信息。

另外,根据一些实施例,本发明提供的图像中文本区域的位置确定装置能够在对所有文本区域进行分行操作之前,首先进行初步的分类操作,以减少分行操作时的运算量。

需要注意的是,上述附图中所示的框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图7是根据一示例性实施方式示出的一种电子设备的结构示意图。需要说明的是,图7示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示,电子设备700以通用计算机设备的形式表现。电子设备700的组件包括:至少一个中央处理单元(cpu)701,其可以根据存储在只读存储器(rom)702中的程序代码或者从至少一个存储单元708加载到随机访问存储器(ram)703中的程序代码而执行各种适当的动作和处理。

特别地,根据本发明的实施例,所述程序代码可以被中央处理单元701执行,使得中央处理单元701执行本说明书上述方法实施例部分中描述的根据本发明各种示例性实施方式的步骤。例如,中央处理单元701可以执行如图1至5中所示的步骤。

在ram703中,还存储有电子设备700操作所需的各种程序和数据。cpu701、rom702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。

以下部件连接至i/o接口705:包括键盘、鼠标等的输入单元706;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出单元707;包括硬盘等的存储单元708;以及包括诸如lan卡、调制解调器等的网络接口卡的通信单元709。通信单元709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至i/o接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储单元708。

图8是根据一示例性实施方式示出的一种计算机可读存储介质的示意图。

参考图8所示,描述了根据本发明的实施方式的设置为实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如图1至5中所示的功能。

以上具体地示出和描述了本发明的示例性实施方式。应可理解的是,本发明不限于这里描述的详细结构、设置方式或实现方法;相反,本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

技术特征:

1.一种图像中文本区域的位置确定方法,其特征在于,包括:

获取待识别图像,所述待识别图像包含文本;

对所述待识别图像进行文本定位,获得多个文本区域及各文本区域四个角的坐标信息;以及

分别对各文本区域执行位置确定操作,包括:

根据选定的基准文本区域的上、下两条边的延长线所构成的区域,确定与所述基准文本区域同属一行的文本区域;

根据各行中的各文本区域同一方位的角的横坐标,分别确定各行中的各文本区域的列信息;及

根据各行中的各文本区域同一方位的角的纵坐标的平均值,分别确定各文本区域的行信息。

2.根据权利要求1所述的方法,其特征在于,根据选定的基准文本区域的上、下两条边的延长线所构成的区域,确定与所述基准文本区域同属一行的文本区域包括:

步骤a)根据各文本区域的左上角的横坐标,确定所述基准文本区域为最左端的文本区域;

步骤b)根据由所述基准文本区域的上、下两条边确定的直线方程,确定所述基准文本区域的上、下两条边构成的区域;

步骤c)将与所述区域有重叠的文本区域确定为与所述基准文本区域同属一行的文本区域;

步骤d)如果存在至少一个与所述基准文本区域同属一行的已确定文本区域,则选择所述至少一个已确定文本区域中未被确定为基准文本区域过的最左端的文本区域为新的基准文本区域,重复执行上述步骤a)~c)。

3.根据权利要求1所述的方法,其特征在于,根据各行中的各文本区域同一方位的角的横坐标,分别确定各行中的各文本区域的列信息包括:

根据各行中的各文本区域左上角的横坐标的大小,分别对各行中的各文本区域进行排序;以及

根据排序结果,分别确定各行中的各文本区域的列信息。

4.根据权利要求1所述的方法,其特征在于,根据各行中的各文本区域同一方位的角的纵坐标的平均值,分别确定各文本区域的行信息包括:

确定所述各行中的各文本区域左上角的纵坐标的平均值;以及

根据所述平均值的大小,分别确定各文本区域的行信息。

5.根据权利要求1-4任一项所述的方法,其特征在于,在分别对各文本区域执行位置确定操作之前,所述方法还包括:根据所述各文本区域四个角的坐标信息,对所述多个文本区域进行归类处理,以使不同类的文本区域在垂直方向上没有重叠;分别对各文本区域执行位置确定操作包括:分别对各类别中的文本区域执行所述位置确定操作。

6.根据权利要求5所述的方法,其特征在于,根据所述各文本区域四个角的坐标信息,对所述多个文本区域进行归类处理包括:依次筛选满足归类条件的两个文本区域并将其归为一类;其中,所述归类条件为所述两个文本区域的左下角的纵坐标中的较大者小于所述两个文本区域的左上角的纵坐标中的较小者。

7.根据权利要求1-4任一项所述的方法,其特征在于,对所述待识别图像进行文本定位,获得多个文本区域及各文本区域四个角的坐标信息包括:基于经过训练的深度学习文本检测及定位模型,获得所述多个文本区域及各文本区域四个角位置的坐标信息。

8.一种图像中文本区域的位置确定装置,其特征在于,包括:

图像获取模块,用于获取待识别图像,所述待识别图像包含文本;

文本定位模块,用于对所述待识别图像进行文本定位,获得多个文本区域及各文本区域四个角的坐标信息;

文本分行模块,用于根据选定的基准文本区域的上、下两条边的延长线所构成的区域,确定与所述基准文本区域同属一行的文本区域;

第一确定模块,用于根据各行中的各文本区域同一方位的角的横坐标,分别确定各行中的各文本区域的列信息;以及

第二确定模块,用于根据各行中的各文本区域同一方位的角的纵坐标的平均值,分别确定各文本区域的行信息。

9.一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,其特征在于,所述处理器执行所述可执行指令时实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-7任一项所述的方法。

技术总结

本发明公开一种图像中文本区域的位置确定方法、装置、设备及存储介质。所述图像中文本区域的位置确定方法包括:获取待识别图像,所述待识别图像包含文本;对所述待识别图像进行文本定位,获得多个文本区域及各文本区域四个角的坐标信息;以及分别对各文本区域执行位置确定操作,包括:根据选定的基准文本区域的上、下两条边的延长线所构成的区域,确定与所述基准文本区域同属一行的文本区域;根据各行中的各文本区域同一方位的角的横坐标,分别确定各行中的各文本区域的列信息;及根据各行中的各文本区域同一方位的角的纵坐标的平均值,分别确定各文本区域的行信息。

技术研发人员:王亚领;刘设伟;马文伟

受保护的技术使用者:泰康保险集团股份有限公司;泰康在线财产保险股份有限公司

技术研发日:.11.04

技术公布日:.02.28

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。