百度联合发起中文自然语言处理数据共建计划“千言”

8月25日,在百度大脑语言与知识技术峰会上,百度CTO王海峰首次发布了百度大脑语言与知识产品全景图;百度还联合发起中文自然语言处理数据共建计划——“千言”。

图:百度CTO 王海峰

另外,百度集团副总裁吴甜发布了语义理解技术与平台文心、智能文档分析平台TextMind和AI同传会议解决方案3大新产品,同时发布了6项升级,包括智能创作平台的3个场景方案、以及智能对话定制与服务平台UNIT的3项全新升级。

图:百度集团副总裁 吴甜

据介绍,百度推出的语义理解技术与平台文心,基于深度学习 平台飞桨打造,依托领先的语义理解核心技术,集成优秀的预训练模型、全面的NLP算法集、端到端开发套件和平台,提供一站式NLP开发与服务,让开发者更简单、高效地定制企业级NLP模型。智能文档分析平台TextMind,基于OCR、NLP技术,以文档解析为核心能力,支持文档对比与文档审核,具备“多快好省”的核心优势,促进企业办公智能升级。

其中,全新发布的AI同传会议解决方案,覆盖会议全场景、全流程,旨在打造用户随身的“会议同传专家”。吴甜现场展示了如何只用一台电脑和一部手机快速搭建一套同传服务,只需点点鼠标、打几个字,就能快速获得专业的同传服务。

值得一提的是,针对数据匮乏、算力不足等语言与知识技术研发中面临的瓶颈,会上,百度联合中国计算机学会、中国中文信息学会发起中文自然语言处理数据共建计划——“千言”,解决数据稀缺问题。

据悉,“千言”一期由来自国内11家高校和企业的数据资源研发者共同建设,已涵盖开放域对话、阅读理解等7大任务,20余个中文开源数据集。

对此,百度技术委员会主席吴华表示,“未来,我们希望有更多的数据集作者能够参与共建千言,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。我们计划在未来3年,面向20多个任务,收集和建设不少于100个中文自然语言处理数据集,覆盖语言与知识技术全部领域。”

现场,吴华还发布了百度语言与知识技术算力共享计划,通过百度AI STUDIO平台提供算力支持。

(0)
上一篇 2020年8月26日 10:15
下一篇 2020年8月26日 10:15