免费硬盘

AI时代的图数据库TigerGraph加

发布时间:2023/2/15 17:05:49   
白癜风边上长黑点 http://m.39.net/news/a_5643267.html

万物皆数据的时代,数据的价值将被重新定义。其实从Hadoop诞生之日起,大数据的发展走过了十余年,期间像存储、离线处理等基础问题已经得到了解决。随着深度学习、机器学习等AI技术的逐级深入,人们开始思考如何通过挖掘大数据的关联性去探索“隐藏”在背后的商业价值,这种诉求也将一个15年前的技术再次推到了台前——图数据库。

TigerGraph,一家来自美国硅谷的公司,致力于打造基于“图”的大数据分析系统,经过近六年的研发后于去年10月在美国市场正式发布了相关产品。当然,这里指的图并不是图片,而是欧拉图和知识图谱的“图”。TigerGraph的创始人兼CEO许昱博士,曾供职于Twitter和Teradata,在数据库行业有超过20年的工作经验,是该领域的技术权威。

TigerGraph创始人兼CEO许昱博士

“我们用C++从头到尾做了一套基于对图的存储引擎,在上面做了一个大规模并行的图计算引擎、我们自己的针对图的高级开发语言,以及可视化界面,包括可视化开发环境,对图可以做可视化的探索、挖掘。可以说是专门做了一套针对图的系统,因此我们是业界唯一的原生并行图数据库平台,最核心两个词是‘原生’和‘并行’。”许昱说。

打破传统思维的图数据库

在很多人的印象中,关系型数据库仍是市场的主流,甲骨文、Teradata、IBM、微软都是这个领域的主要玩家。而与以往用表格处理数据相比,图是没有表的概念的,就是数学上的点和边的关系,所有的数据可以汇集在一起。从存储角度来说,图是存储数据最自然的关联模型。从计算角度来说,则合适大数据和人工智能。由于早年间计算性能和架构的局限于,使得图数据库这个在计算机科学领域较为高阶的研究成果在近几年才开始显露威力。

较传统关系型数据库,图数据库的差异体现在四个层面。首先是存储模型不同,表格化和图形化对于关键信息的筛选和联系有着本质区别,并且压缩率和对CPUCache的利用度也不一样;其次是计算模型不同,图可以从特定节点出发定向去寻找关联的数据,而非“大海捞针”;再有就是查询功能,TigerGraph将语言设计成类似SQL的GSQL高级语言,便于二次开发时实现各种复杂的功能;最后是数学理论不同,可以理解为关系型数据库是二维的,图的维度没有限制,在图里任何东西都可以是一个节点,各种维度可以关联起来做大规模的并行处理。

具体到TigerGraph,其优势主要有三点:实时计算、深度关联,以及支持数据库的增删改查。以深度关联为例,可以感知到5-10步的行为联系,再如实时计算,实现了同时支持大规模数据、深度关联、边查询边更新、实时风控的分布式架构,允许用户实时在图里基于新的数据来做计算,这是非常难的。今年6月,TigerGraph在美国发布了两个版本的产品:一个是终身免费的开发者版本,单机、没有数据和时间限制;另一个是企业版本,多机、有时间限制,可以根据业务需求来选择1个月或更长。

“数月前,我们还发布了‘多图’,允许一个企业不同部门共享一套物理系统,比如这个业务部门或风控部门看见的图跟IT部门看的图不同,有些数据是可以共享的,有些数据不共享,这样就不用部署多套系统,数据不需要重复冗余的在不同系统拷来拷去。”许昱介绍称,“这是我们在业界唯一首创的功能,这个难度非常大,涉及到权限控制、性能控制、数据共享,还包括像LDAP一键登录,包括加密(数据传输和落地硬盘的加密)等等。”

如果用户正在使用关系型数据库,TigerGraph可以帮助其快速迁移到图数据库环境,降低了用户从别的数据源到图数据库的建模、映射、入库的门槛。例如,TigerGraph用一台机器在1小时内平均能入库G到G的速度,再加10台机器就是1T的数据导入量。对于TigerGraph来说,GSQL不仅是查询语言,也是定义映射的语言,借助GraphStudio将关系型数据库的表映射到图的节点、边只需拖拽即可。“很多用户第一次用都不敢相信入库速度这么快,就是因为我们有并行压缩、并行入库的能力。”许昱说。

生态推动场景应用成熟

得益于对关系型数据库场景的良好支持,任何用关系型数据库能表达的商业逻辑和业务,用图也可以表达出来,并且后者在大数据时代的并行计算等方面有着天然的优势。最直观的一个例子是,图不用去海量的非结构化数据中盲目寻找两个人的关系,而是会直接从两个人潜在的关联性出发以最短路径找到行为联系。

例如,当医药公司研制出新药后,可以基于社区的页面排名、医院、医生、病人的关联性,像患者某天看过主治医生后,如果这个医生把他/她推荐给一个专科医生,那么这个专科医生跟主科医生就可能就有关系,这是通过图能发掘出来的。再如电信反欺诈方面,每天全球数以万计的骚扰电话可能存在较高的误报率,而图并不会直接对电话号码做出鉴别,而是会寻找通话者与其他联系人的通话规律,通过机器学习多重验证来大幅降低误报率。

近几年,图数据库是数据库技术中发展速度最快的,未来五年仍将是十倍速的增长。随着知识图谱在中国市场越来越流行,为各行各业提供知识图谱通用图引擎的TigerGraph也将迎来高速的发展机遇,无论是金融行业还是跨行业的客户,都可以利用TigerGraph建立针对自己企业的图模型。

例如,银行放贷时,可以根据用户关联的电话号码、通讯录成员的贷款行为、过往记录、黑白名单等信息通过机器学习来实时计算出放贷风险。当客户遇到欺诈团伙时,表面上看起来没有任何风险的交易,当与别的信息关联起来后就有可能发现诈骗的蛛丝马迹了。

事实上,无论是亚马逊还是IBM,都在逐渐将目光投向下一代数据库技术,这在一定程度上也加速了TigerGraph的图数据库技术进程。许昱谈到,TigerGraph并不是想替代甲骨文或IBM,而是在做复杂关联、实时计算这些别人很难解决的问题,“我们的新业务成长会越来越快,一些用户已经碍于数据剧增导致业务变慢后,将应用迁移到了我们的图数据库上。我们会聚焦在我们有能力做的事情,真正为客户带来价值。”

“图”是AI时代的数据库

随着TigerGraph在中国市场逐步落地,这家公司在国内的发展也将驶入快车道,除了早在上海设立了办事处,还将陆续赞助所有的CIO、CTO、数据库顶级会议,开展一系列线下的讲座及沙龙。TigerGraph中国区总经理乌明捷透露,TigerGraph会从市场、生态等层面推动在中国的发展,“我们会投入更多的资源加强与客户的直接对话,帮助客户建立行业的标杆案例。我们不碰客户数据,不做具体的应用,但会推动整个生态的发展。”目前,TigerGraph的策略主要是与系统集成商、行业伙伴一起,围绕自家平台帮助客户进行二次开发和项目推进。

“我们开发工具非常开放,谁都可以用,谁都可以改进,自己做都可以。我们刚开始培训教育,做开发者社区培训,在中国也是以教育为主,但具体业务开发,各行各业都不一样,不可能每个行业都是专家,我们是跨行业的,不太可能把每一个行业做透、吃透。”许昱说。由此,TigerGraph在深入到各个行业时会选择更为了解业务流程的合作伙伴去做,或者交由用户来自行构建,“我们公司的定位不是一个行业完整的解决方案厂商,而是一个跨平台的基础软件公司。”

在许昱看来,图是机器学习、人工智能“真正”的数据库,关系型数据库或者文档数据库都不是为AI而生的,像文档数据库本身是一个个文档,每个文档之间没有关联,但是一个人在网站上买了十个产品、买了二十件衣服,不希望打乱放在不同的表里再合并起来显示,文档在写进取出的时候是没有关联的,而图可以把所有的数据都关联起来。

这种技术优势源自TigerGraph起初就将为自己定了一个高门槛,其提供的企业级产品包括传统企业关系数据库有的东西,例如高可用性、热备份、数据保护,可以在云端部署,也可以在本地部署。同时也有其性能优势,“像亚马逊推的一个图数据库,性能指标比我们刚刚发布的(产品)差数倍到数十倍,但它也只能在云端(部署),而我们是既可以跨云也可以在本地部署。”许昱称。

未来,TigerGraph将加入更多基于图的机器学习算法,为企业客户带来更自由的应用空间。就像许昱所说的:“现在主要是客户去做,我们只提供强大的计算能力,包括利用机器学习生成一些新的训练子集,怎么去做计算。我们一步一步来,前面六年主要是打造新一代分布式原生的图数据库系统,下一步我们会提供内嵌的更多人工智能、机器学习的模块。”



转载请注明:http://www.aideyishus.com/lkcf/3056.html
------分隔线----------------------------