使用PIL检测空白页的扫描
所以我经常在一个非智能的佳能多功能上运行巨大的双面扫描工作,这给我留下了一个巨大的JPEG文件夹。我是否疯狂考虑使用PIL分析图像文件夹以检测空白页的扫描并标记它们以进行删除?
离开文件夹爬行和标记部分,我想这看起来像:
检查图像是否为灰度,因为这被认为是不确定的。
如果是这样,请检测阴影的主要范围(背景颜色)。
如果没有,检测主要的阴影范围,限制为浅灰色。
确定整个图像的百分比由所述阴影组成。
尝试找到能够充分检测带有类型或书写或图像的页面的阈值。
也许一次测试图像碎片以提高阈值的准确性。
我知道这是一种边缘情况,但任何有PIL经验的人都可以提供一些指示吗?
没有找到相关结果
已邀请:
3 个回复
香腔弥胯瓤
和
,您将手动选择一些示例。 我将假设其余数据位于
目录中 计算所有图像的正面和负面的功能 学习分类器 在未标记的图像上使用该分类器 在下面的代码中,我使用了jug来为您提供在多个处理器上运行它的可能性,但是如果删除每一行提及the3ѭ代码也可以使用
这使用纹理特征,这可能已经足够好了,但如果您愿意,可以使用
中的其他功能(或尝试
,但这会变得更复杂)。一般来说,我发现很难用你想要的那种硬阈值进行分类,除非扫描是非常有控制的。
辽躺
土投
的事情,其中
做了某种非常宽泛的平滑。这将减少识别主导色调的需要,以及当页面上主要阴影不太均匀时的应对。