大模型+图文识别:远光软件打造数据价值化神器
在数字经济浪潮中,数据就像“工业血液”的石油一样,其记录、存储、分析和应用的范围及规模前所未有,成为企业生存发展的核心驱动力。作为“五大生产要素”之一,数据不仅是推动经济增长的新引擎,更是促进
远光软件凭借其在光学字符识别(OCR)与深度学习算法领域的深厚积累,自主研发了融合NLP和大模型技术的图文识别智能底座。这一智能底座具有自学习、精准识别、智能数据提取的能力,能以标准类及定制类服务全方位满足各类业务场景下的文件处理、分类与信息提取等需求,显著提升业务处理的自动化、智能化水平。
远光软件在长期服务央国企的过程中,沉淀了丰富的票据、卡证、表格等识别模型,如数电票、增值税发票、定额发票、机打发票、财政票据、营业执照、完税证明等超过36种。这些识别模型支持多种文件格式(JPG、PNG、PDF、OFD等)的识别、分类、关键字抽取等场景。可在业务现场通过公有云、私有云、一体机、边缘设备等快速部署,开箱即用,快速满足财务、营销、物资、设备、运行等多个领域业务场景对通用票证结构化数据提取需求。
定制场景:内置自研识别模型,识别更高效
远光图文识别智能底座集数据管理、流程化标注、自动模型训练、模型评估、应用发布为一体,内置自主研发的表格、图像等识别模型,融入先进的模板学习和文本分析提取技术,支持版式文件类、文档流类、界面截图类文件的分析和识别,提供非固定版式票据信息提取、表格信息识别检索、附件快速分类分拣、附件材料完整性检查、文档信息定位抽取、文档内容基础推理计算、签字盖章快速检测定位等能力,打造从附件分类、材料完整性检查到文档内容推理计算的一站式解决方案。同时,通过服务接口方式,轻松赋能其他应用,加速业务创新。
大模型加持:泛化及扩展能力更强劲
区别于传统OCR的“硬编码”方式,远光图文识别智能底座创新性地融入大语言模型。基于多年沉淀的元数据集对大语言模型进行微调,增强大语言模型对单据、卡证、表单等业务理解和推理能力,并通过合理设计提示词工程优化识别提取结果,实现信息提取的高效与精准,从而有效克服传统OCR泛化能力差、实现成本高的问题,提升系统的灵活性与扩展性。
延伸场景:软硬一体,信息采集更智能
远光软件图文识别智能底座将训练达标后的识别模型以服务包的方式封装于远光灵识设备,通过即插即用模式为业务前端智能设备提供通用票据、定制表单、合同、卡证等电子文件的结构化信息提取,实现信息智能化采集,支撑业务处理和决策,充分发挥数据价值。
-
油价跌至15个月新低?石油贸易巨头与大摩齐声警告:需求前景堪忧2024-09-10
-
中国石油建成我国首个百万吨油气当量煤岩气田2024-09-09
-
中国石油首单生物天然气合作项目成功签约2024-09-06
-
南方电网2项成果入选国家数据局第二批“数据要素×”典型案例2024-09-05
-
中石油国事二期LNG项目3号船“二合一”试航凯旋2024-09-05
-
利比亚八月石油出口上升2024-09-03
-
乌方称明年不会停止俄罗斯石油过境运输2024-09-02
-
哥伦比亚东部石油管道遭袭发生原油泄漏 当地政府启动紧急计划2024-08-30
-
中石油今年上半年盈利886.11亿元2024-08-30
-
“光伏行业产品碳足迹基础数据库及核算平台”正式发布2024-08-30
-
浸没式液体冷却技术可为数据中心降低50%能耗2024-08-30
-
中国石油2024年上半年经营业绩再创历史同期新高2024-08-29
-
45家光伏投资商4年装机数据:国家电投断层式领先2024-08-29
-
国家数据局局长刘烈宏最新发言!2024-08-29
-
我国数据领域相关企业超19万家2024-08-28