15. 向量数据库,不只是「大模型的海马体」——对话Zilliz创始人星爵


Episode Artwork
1.0x
0% played 00:00 00:00
May 08 2024 112 mins  

数据,是数字时代的石油。


根据 IDC 的预测,到2025年,全球数据总量中将有超过80%的数据是非结构化数据。向量数据是非结构化数据的抽象数学表达,向量数据库顾名思义就是专门处理向量数据的数据库。

众所周知,AI 三要素包括:算力、算法和数据。向量数据库作为一种专门用于存储和检索向量数据的数据库系统,是将非结构化数据转化为机器可以理解的语义的关键所在。随着 AI 尤其是大模型技术的快速发展,向量数据库的价值也愈发凸显了出来。

红杉美国发布的著名博客《生成式 AI 第二幕(Generative AI’s Act Two)》和 A16Z 发布的《LLM 应用的新兴架构(Emerging Architectures for LLM Applications)》两篇文章中一致提到:向量数据库是重要的生成式人工智能基础设施。A16Z 甚至认为:从系统的角度来看,预处理管道中最重要的部分就是向量数据库。

根据市场研究机构 MarketsandMarkerts 预测:2023年-2028年,全球向量数据库市场规模预计将从15亿美元增长到43亿美元,预计年复合增长率为23.3%。当然,在极速变化的科技行业中,预测总是落后于市场的。回顾过去数十年的科技发展史,我们可以发现:每一代新技术架构的出现都预示着数据范式的改变,也会催生出多家百亿甚至千亿级美金数据平台的诞生。

从大型计算机到个人计算机的转变导致了结构化数据的兴起,从而催生了 Oracle、MySQL 等关系型数据库;互联网和移动互联网导致云应用程序产生的非关系数据量爆炸式增长,从而催生了 MongoDB、Elasticsearch 等 NoSQL 数据库;而企业内部「大数据」的出现则催生了用于存储、管理和分析大量结构化和半结构化数据的云数据库,并产生了 Snowflake、Databricks 等云原生数据库。

AI 时代的到来,向量作为机器理解世界的数据形式,也可能会让向量数据库成为新的重要基建,理论上也会诞生 AI 时代的大型数据库公司。


今天我们有幸邀请到的嘉宾,就是全球第一家提供开源向量数据库产品的公司,也是最被广泛采用的全球领先的向量数据库厂商之一 —— Zilliz 的创始人兼 CEO 星爵,请他和我们深入聊聊向量数据库、AI、RAG、开源、全球化等话题。


【主播】

Jay,《出海相对论》主理人,独立播客制作人。消费互联网创业&投行背景,长期关注消费、科技、AI 等领域的出海全球化创新创业。

佳芮,句子互动创始人,微软人工智能最具价值专家(AI MVP),对话式营销开创者。《福布斯》30 Under 30、36kr S级创业者,Y Combinator 校友,全球最大对话式交互 RPA SDK 开源框架 Wechaty 联合作者。著有《Chatbot 从0到1:对话式交互实践指南》(第一版)(第二版)。


【嘉宾】

星爵,Zilliz 创始人&CEO

星爵是一位拥有超过20年经验的数据库专家,2020-2021年担任 Linux 旗下基金会 LF AI & Data 董事会主席。在创办 Zilliz 之前,星爵在 Oracle 美国总部工作多年,负责 Oracle 关系型数据库系统研发,是 Oracle 12c 云数据库项目的创始工程师。星爵拥有威斯康星大学麦迪逊分校的计算机科学硕士学位和华中科技大学的学士学位。


【你将听到】

00:04:13 星爵自我介绍与 Zilliz 简介

00:06:34 Zilliz 与英伟达、OpenAI、Intel 等建立官方合作伙伴关系背后的故事

00:10:05 Oracle 的经历对创立 Zilliz 有什么影响?当时看到了什么机会?

00:19:20 向量数据库最被低估和高估的各是什么?

00:33:57 向量数据库如何解决大模型幻觉问题?是否是目前最佳方案?

00:42:20 Milvus 2.4版本实现了哪些技术创新,如何做到较以往50倍性能提升?

00:49:00 为什么一开始就选择开源?如何看待开源的价值?

00:55:40 Zilliz Cloud 作为云服务产品,面对不同类型客户如何平衡易用性和企业级需求?

01:01:19 为什么和云服务 bundling 是 Zilliz 唯一的商业模式?向量数据库能否向上/向下延伸?

01:07:21 面对愈发激烈的向量数据库市场竞争,Zilliz 将如何保持领先、构建壁垒?

01:11:52 Zilliz 在全球化发展方面有什么经验和策略?AI 时代中国创业者如何走向世界?

01:16:56 Long-context 长上下文的发展对向量数据库有何影响?

01:26:48 Transformer 遵循的冯·诺依曼架构未来可能颠覆吗?对向量数据库的影响是什么?

01:33:13 向量数据库的想象空间有多大?是否有颠覆传统数据库巨头的机会?

01:43:02 极客范+浪漫主义的文化对企业创新和发展有什么价值?


【相关链接】

IDC 对非结构化数据的预测:https://www.forbes.com/sites/forbestechcouncil/2022/02/03/the-unseen-data-conundrum/?sh=4880bfa87fcc

红杉美国:《生成式 AI 第二幕》:https://www.sequoiacap.com/article/generative-ai-act-two/

A16Z:《LLM 应用的新兴架构》:https://a16z.com/emerging-architectures-for-llm-applications/

MarketsandMarkerts 对向量数据库市场的预测 :https://www.marketsandmarkets.com/Market-Reports/vector-database-market-112683895.html

Zilliz 、Milvus 及 Zilliz Cloud 官网地址:https://zilliz.com/;https://milvus.io/;https://zilliz.com/cloud

NVIDIA GTC 2024大会:https://www.youtube.com/playlist?list=PLZHnYvH1qtOYPPHRaHf9yPQkIcGpIUpdL

Intel Vision 2024大会:https://www.intel.com/content/www/us/en/events/on-event-series/vision.html

《大型共享数据库数据的关系模型》:https://dl.acm.org/doi/abs/10.1145/362384.362685

A16Z:《投资 Pinecone》:https://a16z.com/announcement/investing-in-pinecone/

《No Priors》访谈 Pinecone 创始人 Edo Liberty:https://www.youtube.com/watch?v=6R7YCX4Q91Q

Advent of Code 及 Eric Wastl:https://adventofcode.com/;https://github.com/topaz

Zilliz:RAG 会被长上下文 LLM 杀死吗?:https://zilliz.com/blog/will-retrieval-augmented-generation-RAG-be-killed-by-long-context-LLMs

红杉美国 AI Ascent: Stephanie Zhan 访谈 Andrej Karpathy:https://www.youtube.com/watch?v=c3b-JASoPi0&list=PLOhHNjZItNnOoPxOF3dmq30UxYqFuxXKn&index=4


【加入社群】

《出海相对论》在2024年建立听友群啦!你可以联系主播 Jay(VX:c1528083084,或扫码下方二维码)申请加入~


【关于出海相对论】

《出海相对论》是一档关注出海全球化与AI的深度对谈中文播客节目。由Jay和佳芮共同发起,通过深入对话全球有影响力的华人企业领袖,旨在为中国出海企业及个体拓展全球视野,分享宝贵一线经验与最佳实践。

如果你对出海全球化和AI感兴趣,欢迎你在苹果Podcast、Spotify、小宇宙、喜马拉雅等平台订阅收听我们的节目,也欢迎你在其他泛用型播客客户端订阅收听。

微信搜索「出海相对论」,关注我们的公众号,会有每期播客文字版放送,也可以申请加入官方听友群。

出海就听,出海相对论。May you see the sea。