8月19-21日,中国图象图形大会(CCIG 2022)在成都举办,金山办公受邀参会并发表主题演讲,展示公司在CV(Computer Vision计算机视觉)领域取得的突破性研究成果及场景应用。
(资料图片仅供参考)
金山办公CV团队负责人熊龙飞在演讲中表示,前三次工业革命将人从繁重的体力劳动中解放出来,而以大数据、人工智能等技术为驱动力的第四次工业革命将进一步将人从繁复的、低价值脑力劳动中解放出来。
他认为,文档文字、图像和表格的处理是日常工作和生活中最高频的脑力劳动之一,其中很多工作其实可以通过CV技术来完成。
近年来,金山办公在以CV技术为支撑的OCR文字识别领域已达到业界领先水平。除了满足基本的文档内容识别,金山办公通过加入深度学习能力,对文字属性和段落做了一系列算法优化,能够更精准地还原文字风格,对诸如文字颜色、字体、加粗、斜体和下划线等格式都能进行高度识别,显著提高文档还原度,为用户节省大量后期手动调整的时间和精力。
例如,对于图片中的文字,金山办公不仅能够识别出字体的名称,还会推荐该字体及相似字体给用户选择使用。
熊龙飞还特别提到,“针对一些特定格式,例如目录,我们不仅可以完整地识别出目录内容,更能支持点击跳转到相应的页面。”
同时,金山办公的OCR文字识别可以灵活满足多种应用环境下的部署需求,既支持服务端的高精度模型部署,也支持手机、PC端的小模型部署。
“未来,金山办公会继续在文字识别领域保持快速的迭代速度和强大竞争力,因为我们拥有全球最庞⼤的数据储备和真实⽤户反馈池。”熊龙飞进一步表示。
而对于识别难度更高的实体文件,例如带有印章的公文、被揉皱的表格等,通过金山办公的版式还原系统便能轻松实现高度还原,并自动将实体文件变成可编辑的电子文档。对于用户来说,这将极大地节省人工输入产生的时间成本。
据介绍,金山办公的版式还原系统由近三十个深度学习模型、一百多个算法模块、50多万行代码构成,拥有复杂的功能模块和调度流程,具备从文档分类、矫正、识别、分析到重建的能力,最终可以输出结构化的数据表达或常见的docx等多种格式的文档。
除此之外,金山办公的CV能力还在智能抠图、证件照制作、文档质量提升、滤镜、水印涂抹等众多产品功能上得到应用,充分赋能各种场景下的办公自动化。
金山办公在过去34年持续深耕办公赛道,坚持技术立业,不断打磨技术和产品服务。公司承担多项国家级重大科研项目研发任务,包括“核高基”科技重大专项、电子发展基金、“863”高技术研究发展计划等,并先后两次荣获国家科技进步二等奖。
公司在近年持续加大AI领域的研发投入,并把OCR、版面的识别和理解列为重点任务。早在2018年,公司就成立了CV团队,聚焦WPS等产品上图像及视觉项目的研发与应用,通过CV能力赋能各类办公场景,目前已在OCR文字识别、文档矫正、智能抠图、字体识别、表格还原、版式还原、PDF编辑等二十多个功能上线相关产品和服务。
目前,金山办公为来自全球220多个国家和地区的用户提供办公服务。截至2021年12月,公司主要产品月度活跃设备数为5.44亿,其中WPS office PC版月度活跃设备数2.19亿,移动版月度活跃设备数3.21亿。
CCIG 2022 由中国科学技术协会指导、中国图象图形学会主办,以“图象视界,形智未来”为主题,汇聚国内外众多知名学者、企业专家及科研院校师生,共同探讨图像图形技术行业的最新进展。
关键词: 亮相ccig2022 携cv领域 最新消息 科技资讯挖掘 高效读科技