NL2SQL 智能对话数据库初探(智能对话在打通人与数据查询壁垒上的探索).docx
《NL2SQL 智能对话数据库初探(智能对话在打通人与数据查询壁垒上的探索).docx》由会员分享,可在线阅读,更多相关《NL2SQL 智能对话数据库初探(智能对话在打通人与数据查询壁垒上的探索).docx(13页珍藏版)》请在课桌文档上搜索。
1、N1.2SQ1.智能对话数据库初探从数据治理的全生命周期来看,商业银行需要具备数据资产管理,高效、高质量的数据加工以及数据创新运用三个方面的核心能力。商业银行在数据存储的选择上呈现多元化,但大多数业务知识和数据仍以关系型数据库的形式存储。目前业务人员只能通过固定的界面接口查询使用数据,数据查询过程繁琐且效率低下,极大地限定了业务人员按需查询数据库的场景和查询界限。在此背景下,业界在探索一种新的人机交互方式,即通过N1.2SQ1.(Natural1.anguageToSQ1.)技术,将业务人员的查询意图快速准确地转换为可执行的SQ1.查询语句,省去人工构造SQ1.语句的过程,从而大幅提升数据查询
2、效率。新兴技术N1.2SQ1.解读1 .什么是N1.2SQ1.N1.2SQ1.是将用户自然语言转化成数据库可执行的SQ1.,完成人与关系数据库交互的实时数据查询。其目的是让用户无需掌握专业数据库编程技能也可以灵活快速地操作数据,以降低数据库使用门槛。从技术范畴来看,N1.2SQ1.本质是将自然语言问句转换为计算机可读懂、可运行、符合计算机规则的语义表示,需要计算机理解自然语言,并生成准确表达语句语义的可执行程序式语言。其定位属于语义分析的子领域,相关技术还有N1.2Bash.N1.2Python.N1.2JavaN1.2SQ1.的研究成果后续可以为语义分析相关领域的研究提供借鉴思路。2 .N1
3、.2SQ1.的关键技术N1.2SQ1.属于N1.P的子领域,相较其他自然语言处理方向的实现方式,在内部实现的整体结构上大同小异,而在技术实现的具体应用有所不同。N1.2SQ1.实现基于N1.P处理流程,在技术实现层面需要从用户语言意图到SQ1.生成的核心细节考虑。从语言灵活性和泛化能力考虑,大多数研究倾向于基于有监督的机器学习处理方式。N1.2SQ1.处理流程综合应用了人机交互、自然语言理解、机器学习、知识工程等多个领域知识,如图1所示。特征工程N1.2SQ1.流程图图1人机交互:多轮人机交互提升用户意图识别准确度。用户查询数据库提问通常没有明确的查询意图,只有一些假设和猜想,仅通过单轮对话难
4、以得出结论,需要通过“提问一反馈一再提问”的渐进式交互明确用户意图。自然语言理解:正确理解和解析用户表达的查询意图是N1.2SQ1.的核心能力。在人机交互过程中,模型需要具备基于上下文的自然语言理解能力,包括用户意图识别、语法检测、语义预测等,以达到充分理解用户查询意图的目的。机器学习:合理有效的机器学习算法是N1.2SQ1.的基础技术支撑。N1.2SQ1.利用机器学习算法结合领域知识,可以对表数据进行自主学习丰富知识结构,同时结合不同的用户在不同领域的问题,建立预测模型。再者,基于深度学习算法与规则的结合,模型具备泛化能力、可移植、可解释性的语义解析框架。知识工程:采用知识工程技术手段,实现
5、自然语言到数据库的有效预测。基于多种人工智能技术融合,知识工程通过知识获取、知识验证、知识使用等手段,学习表结构相关的领域知识,建立功能完善的N1.2SQ1.知识模型,实现自然语言到符合用户意图SQ1.的准确预测,最终以合理的方式将查询结果返回给用户。创新数据运用模式初探1.N1.2SQ1.应用现状N1.2SQ1.目前主要处于研究阶段,商用案例较少,且大多数的研究是基于英文数据集开展。2019年首届中文N1.2SQ1.挑战赛最高成绩已达92%以上,刷新了中文N1.2SQ1.的业界记录(见图2所示)。中文N1.2SQ1.挑战赛测试准确度:92.19%数据特点:(1)单表单列杳询;(2)聚合操作C
6、MAX丁MN,COUNT,SUM,AVG);条件连接(AND);(4)条件比较(=丁乂V)测试准确度:92.2%数据特点:(1)单衣单列查询;(2)聚合操作(MAX丁MIN)COUNT;,SUM,AVG);(3)条件连接CAND%(4)条件比较(E,少SPider挑成测试准确度:61.9%数据特点:(1)跨域多表多列奇闻,复杂子查询;聚合操作(MA)C,MN,COUNT,SM,AVG,GROUP,HAVING,1.IMIT);外表连接口。irV,on1.as)条件连接(AND;。);(4)ftt(,not,between,,=:W汰iTableQuestions、ATIS等,各个数据集都有各自
7、的特点,下面简单介绍下这几个数据集。WH6SQ1.:该数据集是Salesforce在2017年提出的大型标注n12sql数据集,也是目前规模最大的nl2sql数据集。它包含了24,241张表,80,645条自然语言问句及相应的SQ1.语句。目前学术界的预测准确率可达91.8%oSpider:Spider数据集是耶鲁大学于2018年新提出的一个较大规模的n!2sql数据集。该数据集包含了10181条自然语言问句,分布在200个独立数据库中的5,693条SQ1.,内容覆盖了138个不同的领域。虽然在数据数量上不如WikiSQ1.,但SPider引入了更多的SQ1.用法,例如GroUPBy、Orde
8、rByHaving等高阶操作,甚至需要Join不同表,更贴近真实场景,所以难度也更大。目前准确率最高只有54.7%。WikiTableQuestions:该数据集是斯坦福大学于2015年提出的一个针对维基百科中那些半结构化表格问答的数据集,内部包含22,033条真实问句以及2,108张表格。由于数据的来源是维基百科,因此表格中的数据是真实且没有经过归一化的,一个CeII内可能包含多个实体或含义,比如Beijing,ChinaJ或200kmJ;同时,为了很好地泛化到其它领域的数据,该数据集测试集中的表格主题和实体之间的关系都是在训练集中没有见到过的。TheAirTravellnformation
9、System(ATIS):ATIS是一个年代较为久远的经典数据集,由德克萨斯仪器公司在1990年提出。该数据集获取自关系型数据库OfficialAirIineGuideCOAG,1990),包含27张表以及不到2,000次的问询,每次问询平均7轮,93%的情况下需要联合3张以上的表才能得到答案,问询的内容涵盖了航班、费用、城市、地面服务等信息。中文nl2sql数据集中文数据集目前只有追一科技在天池发布的比赛数据集,包括4万条有标签数据作为训练集,1万条无标签数据作为测试集。目前比赛第一名的成绩,准确率达到了92%o3、基于深度学习的nl2sql数据格式业务问题对应SQ1.数据结构格式SQ1.字
10、典SQ1.表相关数据如上图所示,构建基于深度学习的nl2sql训练数据,主要包括三部分:业务问题对应的SQ1.信息,SQ1.字典,SQ1.表数据。下面分别介绍相应的数据格式。3.1 业务问题对应的的SQ1.首先来看一下SQ1.相关的符号字典叩_41_(1记曰0:“,1:“AVG2MAX”3MIN*4:COUNT,5:“SUM”,6:“不被select#聚合函数符号ConkSq1.diCt=2:“or”)#条件逻辑关系基于花百字典的描述格式为“table_idt”alb2c3d4”,#相应表格的idquestion:自然语言问句“sql”:#真实SQ1.se,lSQ1.选择的列“agg”:4,#
11、选择的列相应的聚合函数,O代表无ncond_conn_op:l,#条件之间的关系”conds”:U622016M7,2;融资收购其他资产R#其中6,2,2016分别表示条件列,条件符号类型,条件值下面看一个实际案例:(1)业务问题为净资产收益率达到25以上或者季度每股盈余达到2以上的有哪些证券?(2)对应的SQ1.为selectcol_1fromTable_43b0a2f31d711Ie9b86df40f24344a08wherecol_3,25orco1.42u(3)描述格式“table_id”:“43b0a2f3ld7111e9b86df40f24344a08,question1:资产收益
12、率达到25以上晟者季度每股盈余达到2以上的有哪些证券?”,“sql”:“agg:O,#不做聚合ConC1.COnn_op”:2,#选择条件是或选择第1列列Ond5”:3,0,“25”,#第3列大于254,0,”2”#第4列大于23.2SQ1.相关表信息(1)如下表所示,为上述SQ1.业务问题对应的表,2col_3COiJ,5I2O7S.SZ沙旃股份28.960.9941.636OO3O7.SHE做5兴.390.0599.066000MSH包旧股份5.710.0529.51O7O9.SZ同旧版份4.820.1521.8SOOoTTB.SN颍兴HHr8.50.3114.746015.SH庆汨铁11
13、.890.1413.12000959.SZ,旧股份10.10.429.786022SM山东的铁15.210.198.940751.SZ本讷板村9.720.438.916O19.SH宝眄版份13.960.928.356OO8O8.SH马iH份22.710.66.91000898.SZ额i冈酸份14.10.856.96231.SH及旃般伤22.160.*76.766O0581.SM八27.640.686.246Ol3.SH53.91.365.876S07.SH方大特询75.11.945.826126.SH杭SR版份14.650.815.58211O.SZ三,哂光0.673.315.146782.S
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- NL2SQL 智能对话数据库初探智能对话在打通人与数据查询壁垒上的探索 智能 对话 数据库 初探 通人 数据 查询 壁垒 探索

链接地址:https://www.desk33.com/p-1425078.html