- 博客(137)
- 收藏
- 关注
原创 【合合TextIn】OCR身份证 / 银行卡识别功能适配鸿蒙系统
自鸿蒙系统推出以来,其不仅成为了华为在软件领域的重要里程碑,更是国产操作系统的一面旗帜,也是国产移动平台几乎唯一的选择,标志着中国在构建独立自主的软件生态体系上迈出了重要一步。随着鸿蒙操作系统的迅速崛起和信创国产化战略的深入推进,市场对兼容国产软件生态的需求日益增长。在这样的大背景下,合合信息两款最热门的OCR产品——身份证识别和银行卡识别——已经全面完成对鸿蒙系统的适配。
2024-03-26 10:30:00 1704 44
原创 【合合TextIn】深度解析智能文档处理技术与应用
智能文档处理的发展离不开机器学习、深度学习、OCR(光学字符识别)和自然语言处理等关键技术的进步。早期的文档处理主要依赖于模板匹配和规则-based的方法,这些方法在处理结构化文档时效果不错,但面对复杂的非结构化文档时则显得力不从心。随着深度学习技术的突破,尤其是卷积神经网络(CNN)和循环神经网络(RNN)在图像识别和文本处理领域的应用,使得IDP技术能够更加精准地识别和理解文档内容。此外,BERT、GPT等预训练语言模型的出现,进一步推动了IDP技术在理解复杂语言结构和语义上的能力。
2024-03-22 10:33:17 1483 60
原创 合合信息扫描全能王亮相静安区3·15活动,AI扫描带来绿色消费新体验
保护消费者的合法权益,是全社会的共同责任。为优化消费环境、促进品质消费高地建设,打造安全优质和谐的消费环境,上海静安区消保委于3月15日举办静安区2024年“3·15”国际消费者权益日活动。在消费体验区,合合信息作为科技企业代表,给消费者们带来了别开生面的智能文档扫描体验。工作人员现场演示了通过智能文字识别技术将古老的甲骨文转化为现代文字的过程。智能文字识别技术可以帮助考古工作者识别残缺、不易辨别的甲骨文,这不仅是科技对传统文化的致敬,更是科技在考古、文化保护等领域应用的生动展现。
2024-03-19 15:43:36 268
原创 合合信息旗下启信宝3·15黄金市场洞察:新增企业量5年连降
日前,合合信息旗下启信宝基于产业链数据库,从全国黄金企业中珠宝首饰设计相关企业(下称“黄金珠宝企业”)的存续情况、新增情况、区域表现等数据进行分析洞察,通过商业大数据帮助消费者研判黄金珠宝产业发展前景,让消费回归理性。
2024-03-14 14:27:38 827
原创 扫描全能王发布2023“绿色数据”:减碳超12万吨,相当于多种700万棵树
植树节将至,合合信息旗下扫描全能王发布了年度用户文档扫描数据(简称“数据”)。数据显示,2023年,扫描全能王中国区用户使用扫描功能超10亿次,累计节省碳排放量超12万吨,相当于多种超700万棵树。
2024-03-12 10:45:20 368
原创 【论文解读】多模态大语言模型综述
本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,论文提出了MLLM的公式,并描述了它的相关概念。然后,论文讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,论文讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,作者将继续更新这项调查,并希望它能激发更多的研究。
2024-03-12 10:31:44 1514 58
原创 合合信息入选上海市网信办“2023年度网络数据安全风险评估试点工作优秀单位”
近日,试点工作组召开了工作总结暨座谈交流会(简称“会议”)。会议指出,数据安全事关国家安全、事关高水平对外开放、事关高质量发展,要深刻把握数据安全工作的新形势新要求。会议通报了本次试点工作的优秀单位及优秀案例。上海市水务局、解放日报社、国泰君安、合合信息等企事业单位获评“2023年度网络数据安全风险评估试点工作优秀单位”。
2024-02-29 17:39:47 371
原创 元宵节家里煮了多少汤圆?合合信息扫描全能王“拍照计数”一键盘点
近期,合合信息旗下扫描全能王APP“拍照计数”功能获得广大用户的关注。该功能基于图像AI技术,可以对图片中用户指定的目标物体进行统计,快速“点出”出图片中的物体数量。想要大致数清汤圆、饺子、车厘子、苹果等年货的数量,只需轻轻一拍,答案即可呈现。
2024-02-24 15:00:00 311
原创 【论文解读】transformer小目标检测综述
本综述论文回顾了60多篇研究论文,专注于开发小目标检测任务的transformer,包括纯基于transformer和集成cnn的混合技术。这些技术已经从七个不同的角度进行了研究:目标表示、用于高分辨率或多尺度特征图的快速注意机制、架构和块的修改、时空信息、改进的特征表示、辅助技术和完全基于transformer的检测。这些类别都包括几种最先进的(SOTA)技术,每一种都有自己的优点。
2024-02-22 10:34:00 1718 64
原创 想好新年去哪了吗?合合信息扫描全能王用AI“留住”年味
还有不到十天,除夕就要到了。近几年春节假期中,有人第一次带着孩子直击海面冰风,坐船回老家;也有人选择“漫游”国内外,在旅行中迎接新春的朝气。合合信息旗下扫描全能王APP通过AI扫描技术,提供了一种全新的“年味记录”方式,帮助用户留住温暖的瞬间。
2024-02-02 17:04:28 371
原创 入境游火了!合合信息扫描全能王“扫描证件”功能获海外用户追捧
合合信息旗下扫描全能王可有效解决各类签证申请材料扫描中存在的歪斜、阴影、模糊等难题,为用户提供清晰的文件图片,让签证申请流程更顺畅。
2024-01-30 09:54:02 388
原创 合合信息启信数据发布园区金融解决方案,助力银行精准服务“十四五”特色产业
近期,合合信息旗下启信数据发布了园区金融专项解决方案(简称“园区金融解决方案”),通过商业大数据和人工智能技术,助力银行精准锚定目标园区及企业,用金融“活水”培育产业“沃土”。
2024-01-25 10:50:26 342
原创 【论文解读】用于代码处理的语言模型综述
论文系统地回顾了在代码处理方面的最新进展,包括50个+模型,30个+评估任务和500个相关工作。论文将代码处理模型分解为由GPT家族表示的通用语言模型和专门预训练的代码模型,通常具有定制的目标。论文讨论了这些模型之间的关系和差异,并强调了代码建模从统计模型和rnn到预训练的transformer和LLM的历史转变,这与NLP所采取的过程完全相同。还讨论了特定于代码的特性,如AST、CFG和单元测试,以及它们在训练代码语言模型中的应用,并确定了该领域的关键挑战和潜在的未来方向。
2024-01-18 10:32:19 1823 57
原创 “五星卡”上新!合合信息“外国人永久居留身份证”识别产品助力金融机构提升服务效率
“五星卡”是办理金融、教育、医疗、交通、住宿、通信、工作、税收和社会保险、财产登记、诉讼等事务的关键材料之一,金融、交通、政务相关机构亟须在信息系统、线上应用程序与服务平台等层面,将永居证纳入可识别的身份证件类型。合合信息率先上线外国人永久居留身份证识别产品,助力永居证适配性改造与便利化应用。
2024-01-17 09:56:52 430
原创 入选人民网2023普惠金融优秀案例,合合信息旗下启信宝赋能银行对公信贷数字化转型
针对银行在普惠金融落地过程中存在的获客难、触客难、内部授信流程复杂等问题,合合信息旗下启信宝推出了银行对公业务数字化升级解决方案(简称“银行对公数字化方案”),在“启信天元大数据应用平台”的支持下,创新性将商机获取、尽职调查、客户触达与跟踪、运营管理等流程融为一体,并通过对接银行CRM系统,高效低成本助力银行“活客”“获客”。 同时,依托丰富的大数据资源,方案可助力金融机构高效开展专项信贷业务,为发展普惠金融提供技术和数据支撑。
2024-01-12 10:52:42 449
原创 CSIG青年科学家会议圆满举行,合合信息打造智能文档处理融合研究新范式
近期,第十九届中国图象图形学学会青年科学家会议(简称“会议”)在广州召开。会议面向国际学术前沿与国家战略需求,致力于支持图象图形领域的优秀青年学者,提供学术交流与研讨的平台,促进学者之间的交流与合作,鼓励图象图形领域的“产学研”合作。论坛上,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士对GPT-4V在文档处理领域的实际表现进行了解析,并对公司在智能文档处理领域的研究工作进行了分享。
2024-01-05 17:07:38 348
原创 【论文解读】模型即服务-MaaS中所涉及的关键技术
本文对MaaS在各个行业的意义及其意义进行了全面的概述。论文简要回顾了基于云计算的“x即服务”的开发历史,并介绍了MaaS中所涉及的关键技术。GenAI模型的发展将变得更加民主化和繁荣。论文还回顾了MaaS的应用研究。最后,作者强调了这一前景领域的几个挑战和未来问题。MaaS是针对不同的基于人工智能的模型的一种新的部署和服务范式。论文希望本综述能对MaaS领域的研究提供启示。
2023-12-28 15:31:22 2028 41
原创 扫描全能王启动鸿蒙原生应用开发,系HarmonyOS NEXT智能扫描领域首批
近期,“鸿蒙合作签约暨扫描全能王鸿蒙原生应用开发启动仪式”(简称“签约仪式”)正式举行。合合信息与华为达成鸿蒙合作,旗下扫描全能王将基于HarmonyOS NEXT正式启动鸿蒙原生应用开发。据悉,扫描全能王是鸿蒙在智能扫描领域内签约原生应用开发的头部产品,双方拟在以OpenHarmony为底座的HarmonyOS上构建应用及服务,携手为用户带来更优质的服务体验,实现成果共享、商业共赢。
2023-12-26 14:29:30 251
原创 【论文解读】System 2 Attention提高大语言模型客观性和事实性
基于transformer的大语言模型(LLM)中的软注意很容易将上下文中的不相关信息合并到其潜在的表征中,这将对下一token的生成产生不利影响。为了帮助纠正这些问题,论文引入了System 2 Attention(S2A),它利用LLM的能力,用自然语言进行推理,并遵循指示,以决定要处理什么。S2A重新生成输入上下文以使输入上下文只包含相关部分,然后再处理重新生成的上下文以引出最终响应,增加了事实性和客观性,减少了虚假性。
2023-12-13 11:09:15 248
原创 即拍即改!合合信息旗下扫描全能王推出首个移动端图片文字编辑功能
近期,合合信息旗下扫描全能王APP“编辑文字”新功能正式上线。在AI智能扫描引擎的支持下,该功能可自动识别、修改图片中的文本,为使用者提供更便捷、更高效的文字处理体验,用户只需打开手机,便可轻松完成指尖上的编辑",无需因为细微的调整而耽误项目的进度。
2023-12-12 14:53:30 98
原创 合合信息旗下启信宝与鹏城实验室达成数据托管合作,“AI靶场”让数据管理更精准
数据安全层面,鹏城实验室AI靶场与深数所的合作将充分发挥各自的优势,共同打造一个高效、安全的数据托管机制,为数据供给方提供安全托管的保障,同时为数据需求方提供挖掘真实场景真实数据的充分支持。鹏城实验室新型网络研究部基于实验室领域战略科学家、中国工程院院士方滨兴提出的“数据不动程序动、数据可用不可见、分享价值不分享数据、保留所有权释放使用权”隐私保护新理念,通过“鹏城云脑”,打造安全可信的数据共享空间——AI靶场,构建了一套全自主可控的安全保障和内容审核机制,为数据共享使用搭建了一个安全的模型加工场。
2023-12-07 11:35:39 98
原创 文档理解的新时代:LayOutLM模型的全方位解读
在现代文档处理和信息提取领域,机器学习模型的作用日益凸显。特别是在自然语言处理(NLP)技术快速发展的背景下,如何让机器更加精准地理解和处理复杂文档成为了一个挑战。文档不仅包含文本信息,还包括布局、图像等非文本元素,这些元素在传递信息时起着至关重要的作用。传统的NLP模型通常忽略了这些视觉元素,但LayOutLM模型的出现改变了这一局面。LayOutLM模型是一种创新的深度学习模型,它结合了传统的文本处理能力和对文档布局的理解,从而在处理包含丰富布局信息的文档时表现出色。
2023-11-29 10:44:53 213
原创 上海数交所与合合信息发布产业数据行业创新中心,政产学研合力为“数据航母”加速
数据要素市场的培育、价值的提升,首先需要确定数据要素资产产权权利;中心重点推出了“供应链数据要素跨域融合平台”(简称“平台”),汇集了大型集团企业平台、产业互联网平台、工业企业及工业互联网平台等多源第三方数据,通过国内首个基于数据空间技术形成的数据交易创新模式进行数据融合建模,在满足产业发展和普惠金融相关数据需求的同时,帮助数商更快捷地进行数据商业化。从微观层面看,每个产业主体都会产生属于自己的独特数据,且其中大部分以私域的形式进行保存,例如供应链数据、交易数据、票据数据、履约数据、生产数据、工业数据等。
2023-11-28 13:33:07 95
原创 【论文解读】在上下文中学习创建任务向量
目前还不清楚ICL是否以这种方式运行,因为预测是通过T([S,x])执行的,其中T通常是一个自回归transformer,而[S,x]是S和x中的令牌的连接。受学习理论的假设类观点的启发,论文的目标是了解ICL是否将演示集S映射到查询x上的一个函数,以及这个映射是如何发生的。论文的实证研究结果表明,这一观点是适用的,阐明了假设空间的结构,其中ICL可以被看作是运作的。在这里,论文提供了支持这种解释的证据。可以看出,同一任务中的向量比不同任务之间的向量更接近,说明θ在任务中是稳定的,不受x'或S的高度影响。
2023-11-23 14:25:27 162
原创 小小发票拦住出海“巨头”,合合信息智能文档处理技术助力企业重塑财务管理流程
合合信息智能文档处理技术可有效解决图像质量低、文档版式多样、手写字体识别、表格识别等图像处理传统难点,对多版式文档的文字、表格、印章、签字等审核项信息进行精准识别与抽取,帮助该集团对多种凭证进行文字检测、识别与关键信息抽取,实现审核字段的自动提取、信息一致性校验,减轻人工审核工作量,提升凭证审核效率。近日,合合信息智能票据产品TextPro正式上线中国某知名新能源车企的国际财务共享中心,将通过AI技术解决该企业在横跨欧洲7国的经营版图中,存在的多语种、多票种、低效率等票据处理痛点。
2023-11-20 11:38:54 127
原创 合合信息亮相新加坡科技周——Big Data & AI World Expo展示AI驱动文档数字化的前沿能力
同时,合合信息也将与展会参与者探讨了纸质文档数字化的重要性,以及如何使用AI驱动的OCR引擎来精确捕捉和提取文档,从而帮助企业自动化和精简其发票和应付账款流程。本次展会的演讲内容涵盖AI驱动OCR技术的最新趋势,深入探讨了将纸质文档数字化的重要性,以及如何使用AI驱动的OCR引擎来精确捕捉和提取文档,从而帮助企业自动化和精简其发票和应付账款流程,对从事自动文档处理、财务数字化和AI技术的专业人士带来了启迪。此外,合合信息还推出了最新的文档数字化技术——TextPro,该技术专为发票处理自动化而设计。
2023-11-13 10:00:00 168
原创 CCIA数安委等组织发布PIA星级标识名单,合合信息再次通过数据安全领域权威评估
然而,法律生效以来,企业在推进个人信息保护影响评估的过程中仍然着困惑和盲区,例如在落地《个人信息保护法》里的各类PIA场景以及各行业中PIA特殊风险时,现有的国家标准给出的操作指引难以对各方面细节进行兼顾。“PIA标识”申请、评估及发放是个人信息保护影响评估工作常态化工作中的重要动作。近期,“中国网络安全产业联盟(CCIA)数据安全工作委员会”、“数据安全共同体计划(DSC)”等组织共同发起“个人信息保护影响评估专题工作(简称“PIA专题工作”)”,并为入围企业颁发了对应的等级标识。
2023-11-10 16:30:00 161
原创 【论文解读】针对生成任务的多模态图学习
一、简要介绍多模态学习结合了多种数据模式,拓宽了模型可以利用的数据的类型和复杂性:例如,从纯文本到图像映射对。大多数多模态学习算法专注于建模来自两种模式的简单的一对一数据对,如图像-标题对,或音频文本对。然而,在大多数现实世界中,不同模式的实体以更复杂和多方面的方式相互作用,超越了一对一的映射。论文建议将这些复杂的关系表示为图,允许论文捕获任意数量模式的数据,并使用模式之间的复杂关系,这些关系可以在不同样本之间灵活变化。为了实现这一目标,论文提出了多模态图学习(MMGL),这是一个通用而又系统的、系
2023-11-10 10:58:16 211
原创 致敬记者节,合合信息扫描全能王助力新闻工作者构建“随身资料库”
扫描全能王团队成员表示,该功能可以“净化”扫描场景中存在的光线、阴影及背景干扰因素,“修复”扫描对象自身存在折痕、污损,有望帮助新闻工作者跨越扫描中存在的空间、信息载体限制,达成“解放双手”的目标。扫描全能王是一款智能扫描及文字识别APP,其提供的扫描及图像处理功能可将手机、平板变为随身携带的扫描仪,将扫描后的资料一键转化为可编辑的数字文件,包括但不限于表格、图表、手写笔记等,帮助用户高效便捷地管理文档资产。以扫描全能王为代表的智能扫描工具可帮助记者在频繁出差之余,解决文件长效保存、随时查阅的痛点。
2023-11-08 14:59:35 109
原创 发布一站式反电诈工具,合合信息商业大数据技术助力银行守护群众“钱袋子”
其二,缺乏相应的工具用于持续监测账户风险。在开户后,信息的碎片化和滞后性,增加了风险管理的难度,可能因无法及时发现账户主体的关键信息变更,错失事前防范的机会。基于启信宝数据平台汇聚的境内2.3亿家企业等组织机构、超1000亿条实时动态商业大数据、超1000个数据维度,启信慧眼可为银行等金融机构提供多源数据资产、多维数据模型以及多类技术应用,助其在开户前高效完成尽职调查,通过及时洞察到空壳风险、关联企业风险等信息,严格防范异常开户,并在开户后持续监测新增风险、变更信息、舆情信息,减少反电诈工作的“死角”。
2023-10-31 11:07:42 198
原创 【论文解读】RLAIF基于人工智能反馈的强化学习
此外,前文指出,少量的例子可能足以训练一个强大的RM(例如,在O(1k)的顺序上),进一步降低了使用一个更大的标记器模型的成本。虽然最近的许多工作使用近端策略优化(PPO)—一种类似的方法,增加了一些技术,使训练更加保守和稳定(例如,裁剪目标函数),论文使用A2C,因为它更简单,但仍然有效的解决论文的问题。对于一个单一的例子,它是通过将一个软ai标记的偏好转换为一个二进制表示(例如,preferencei= [0.6,0.4]→[1,0])来计算的,如果标签与目标人类偏好一致,则分配一个1,否则为0。
2023-10-27 15:48:09 239
原创 个头小却很能“打”!合合信息扫描全能王推出A4便携式打印机
例如图像中的光照强弱、阴影、倾斜角度或其他干扰因素,AI通过智能研判,为用户自动选择出最优处理方案,一键解决图像问题,不仅可以自动矫正倾斜的文档图像和过暗、过亮的画面,还能去除手指、阴影等遮挡物,为需要打印的文档“美颜”。若采用手机扫描的方式进行打印,图像的弯曲畸变,手指遮挡、阴影等干扰因素,都将影响最终打印的效果。便携式打印机的应用场景十分多样。比如在会议期间,重要的PPT来不及记录,或在课堂上,重点板书来不及抄写,用户可以拍下展示文件、图表或板书,就能随时打印资料,避免遗漏重要信息。
2023-10-26 09:29:10 127
原创 手机端侧文字识别:挑战与解决方案
首先,轻量级的神经网络模型如MobileNet或ShuffleNet被广泛考虑,因为它们为移动设备设计,权重参数较少,计算量较小,但仍保持良好的性能。再者,CTC (Connectionist Temporal Classification) 是常用的损失函数,用于端到端的序列识别任务,它可以有效处理序列中的对齐问题,省去了传统的分段标注过程。总的来说,在手机端实现文字检测,核心是采用轻量级模型、多尺度检测技术以及后处理优化,确保在有限的资源下达到实时、高准确的检测效果。
2023-10-20 11:37:46 162
原创 PRCV 2023:语言模型与视觉生态如何协同?合合信息瞄准“多模态”技术
据介绍,合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期,图像篡改检测技术不仅能够应用于自然场景,还能应用于资质证书、文档合同、银行保单等截图的鉴别上。郭丰俊表示,多模态技术可充分利用文档图像的视觉和语言属性,并借助语言大模型已取得的优异性能和技术积累,正逐渐成为文档图像处理领域的热门研究方向。”郭丰俊表示,合合信息已联合中国信通院,发起了《文本图像篡改检测系统技术规范》标准制定,希望持续推动AI技术在图像安全领域的广泛应用,带给用户更加安全、高效的工作和生活体验。
2023-10-17 10:48:40 551
原创 【论文解读】人工智能时代的科学发现
论文将讨论这些方法如何帮助科学家完成整个科学过程,以及尽管取得了这些进展,但仍然存在的核心问题。人工智能工具的开发人员和用户都需要更好地了解这些方法何时需要改进,而数据质量和管理不善所带来的挑战仍然存在。这些问题跨越了科学学科,需要开发基本的算法方法,有助于科学理解或自主获取它,使其成为人工智能创新的关键重点领域。
2023-10-12 14:18:18 179
原创 合合信息、上海大学、华南理工大学发布业内首个古彝文编码“大字典” ,为古文字打造“身份证”
近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,古彝文在数字社会中从此有了“身份证号码”。
2023-09-26 17:55:27 170
原创 合合信息技术专家出席“海聚英才”全球创新创业峰会,为卓越工程师培养“支招”
从世界工程教育第一大国到世界工程教育强国,高质量培养卓越工程师队伍是关键。本次研讨会聚焦卓越工程师培养,致力于为行业提供更丰富的人才资源,调整人才供需结构,推动行业发展。
2023-09-25 14:32:48 127
原创 文档信息抽取技术:从非结构化文本到结构化信息的旅程
文档信息抽取技术是一种将非结构化文本转化为结构化信息的技术。这种技术可以从各类文档中自动提取出如实体、关系和其他重要信息,并将它们转化为方便计算机进一步处理和分析的格式。
2023-09-22 14:47:34 290
原创 CIIS 2023丨聚焦文档图像处理前沿领域,合合信息AI助力图像处理与内容安全保障
合合信息智能技术平台事业部副总经理、高级工程师丁凯博士在《文档图像预训练模型的探索与思考》分享中提到,在互联网语料“见底”之日逐渐逼近之时,电子书成为了大模型训练的新“燃料”,而电子书很多是由文档图像组成的,文档图像识别分析与智能理解技术可以将大量的文档图像转化为具有丰富格式信息的文本,为大模型提供更丰富更高质量的训练语料,解决大模型训练的‘token荒’的问题。大模型蓬勃生长的背面,大量经过人工、生成式AI篡改合成的图片被用于散播谣言、经济诈骗,AI图像内容安全也成为了文档大模型发展中亟待解决的痛点。
2023-09-21 22:08:21 562
原创 合合信息财务自动化解决方案亮相腾讯全球数字生态大会,助力企业财务合规建设
近期,2023年腾讯全球数字生态大会在深圳举行,HAGO、店小秘、马帮、BeLive、Bank Neo Commerce、Zepeto、合合信息等多家科技企业代表参与活动分享。
2023-09-19 11:07:52 147
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人