ChatGPT 从去年 12 月开放,中文世界到了今年 2 月之后,一下子话题爆了。一方面是技术过了临界点,让每个人都有所触动,发现自己懂的东西原来 AI
更懂。另外一点就是,尤其 IT 圈以外的人,都觉得它能改变我的工作甚至是未来的命运,都是有可能的,所以我想这可能是最重要的感触,是一个涌现的开始。
夯实算力基础,不管是 CPU 还是 GPU 都是非常重要的。大模型训练也是靠这个,OpenAI
训练的背后很大程度上也是靠微软的云。今天亚马逊云,阿里云也都快速跟进,因为这对云厂商来说绝对是一个机会。
OSCHINA:未来的关键塑造因素在哪?数据库技术可能的服务场景是什么样的?
刘松:
如果说过去的十几年亚马逊在全球靠基础设施的创新,包含软硬件的创新领先。那么往下五到十年,云 2.0
的最大舞台依赖三个关键塑造因素,一个是云自己的云原生,二是数据技术,第三个是 AI 变成一种类似基础服务?当然还有另外一点是,新的大模型和数据库技术能不能在 B
端融合创造出更多新场景,这也是大家非常关注的话题。
云端的 AI 和数据库的融合可能是发生在 B 端。我们现在用
GPT类产品主要还是普通人在一个公共广场上解决一些科普性的问题,而且大部分是非结构化数据。但是我们试想一下,一个企业的
CEO,他非常关注的话题,GPT类产品是不能直接解决的,比如说我希望让我的企业的下个月人才提效指标10% 应该从哪些部门入手?
对于这个问题,一方面需要企业内部的数据库里有大量的专业应用的模型和算法,另一方面还要比对外界的同行、考虑经济环境是怎么样的。所以我们设想一下,假如我们列一个
CEO 的 100 个常见问题。那么未来五到十年,能不能通过自然语言的方式询问?通过 AI 和数据库结合,包括大模型,内外部数据的结合,给到
CEO这些问题,这个是我们可以憧憬的一个地方。
但 AI 技术正好相反,AI 技术的属性是弑父。新的技术只要一出来,原有的技术,不管是爷爷还是父亲全部都没有意义了,这个就是从 GPT 对于 NLP
的颠覆就能够看出来,这思路就完全变了。那下一代出来的东西很有可能也会把当前的GPT模式完全杀掉。这方面看大模型类的AI
应用确实风险等大,但机会也会更大。
我觉得 AI
相关的大模型或者应用生存的关键在于专业门槛,未来无非就是向上和向下两个方向发展。一个是底层技术的先进性,比如大模型本身的先进性,这个大家都看得到。然后 AI
技术向场景延伸时,有两个地方必须闭环,形成门槛:一个是专业领域的数据,比如医疗、汽车等领域,如果大模型能访问到其数据,在这个领域里就会更强;还有向上应用的创建性,面向用户的,可以想象,未来无论是人力资源管理还是所有的客服体系、数字营销、新一代的BI,广义上的新一代搜索等等,这些可能都会被
GPT 这样的智能技术重新做一遍。
那么重复的门槛在哪里?一个是模型本身,一个就是专业数据的提炼和学习能力,还有一个就是应用构建的友好度,或者说是体验。即 AI
在垂直行业的体验加上价值,在这个基础上,AI 可能要比数据技术面临更大的或然性和挑战。
OSCHINA:PingCAP现在对未来是什么看法,采取了哪些行动?
刘松:
我们现在有一个新的信念,认为 AI 和数据融合会对于企业用户产生巨大的、全方位的价值。
有三个层次,第一个层次是用户最容易见到的,像 Chat2Query里做的,就是自然语言代替了
SQL,成为主要的查询语句。在用户想要获取一些洞察及服务的时候,比如一个快递小哥、外送小哥、或者每个消费者去查询你的商品、外卖到哪里了的行为,其实是一种数据消费。如果这样的查询都用自然语言来解决,整个数据库的使用人数和频次可能会大
100 倍、1000 倍,甚至更大。反过来,这对数据技术与 AI 技术的融合带来了更高的要求。
第二个层次,以数据库技术的处理和查询优化为例,这几年数据库技术领域主要有两个流派,一个是 AI For DB,一个是 DB For
AI。简单来说,一个是数据库的
“自动驾驶”,维护可以用机器学习去优化,这样就不用花太多人力成本,尤其是在云端。另外一个是查询的优化,包括性能的调优,这是数据库领域老大难的问题,现在可以通过
GPT 和相关的 AI 技术来解决。那么这些数据运维,以及数据架构师的工作量就大幅降低了,任何一个项目都会以比之前更快的速度迭代。
最后一层对于数据库技术本身的要求,当 AI
变成每个人通用的、用来做查询和获取洞察的工具的时候,中间有一些工程调优,包括对算法的调用等等,那么数据技术到底应该以什么方式来组织?