开源尖峰人物专访 | 对未来充满信心——开源、创业和社区的KOL:潘娟

一年一度的 OSCAR 开源产业大会 2023 即将召开,我们打算寻找过去5年的尖峰人物,和他们进行一番对话,回顾过去的得失,展望未来~

OSCAR 开源尖峰人物之潘娟介绍

SphereEx 联合创始人 & CTO, Apache Member & Incubator Mentor, Apache ShardingSphere PMC, AWS Data Hero, 中国木兰开源社区导师,腾讯云 TVP。曾负责京东数科数据库智能平台的设计与研发,现专注于分布式数据库 & 中间件生态及开源领域。被评为《2020 中国开源先锋人物》,2021 OSCAR 尖峰开源人物。CSDN 2021 年度 IT 领军人物,2022 年在 ICDE 发表论文 “Apache ShardingSphere,A Holistic and Pluggable Platform for Data Sharding”。2022 年入选 Globee Awards “Chief Technology Officier of the Year” 荣誉。2022 年作为第一作者出版海外书籍《A Definitive Guide to Apache ShardingSphere》。

更多内容可以参考其个人主页:https://tristazero.github.io/zh/

2023 访谈篇

8.23 号的下午,在 SphereEx 公司办公室,「开源之道」·适兕代表 OSCAR 大会组委会(下称 OSCAR )采访了潘娟,以下是根据现场录音整理:

OSCAR:首先谈一下 OSCAR 尖峰人物设置的意义或感想

潘娟:尖峰开源人物的设置,对于开源社区和开发者来说,具有非常重要的意义和价值。这个表彰了在开源领域取得杰出成就的个人,同时也是向全球宣传开源文化和价值的窗口。另外一方面,奖项的设立也能够鼓励更多的开发者参与开源贡献,让开源、技术创新扩展到更大范围,从文化、风潮方面,来推动开源、技术的发展。激发创新和协作精神,推动全球开源技术和文化的发展。此外,我看过获得过 OSCAR 尖峰人物的历年名单 ,所选出来的尖峰人物,还是很有“质量”的,是相对客观、公正的,是较有含金量的,起头起的好,后续就会获得大家的关注,这些尖峰人物,确实是大家都认可的人,如此一来,后续每年都会有更多的人积极的申报和参选。只要保证尖峰人物的质量是高的,规则制定好,评判的公正性到位,一定会鼓励更多的开源贡献者。

OSCAR:开源尖峰人物的机制是推荐,现在距离大会还有一个月,你会推荐一些开源贡献者吗?

潘娟: 我觉得我会推荐,我心目中是有一些老师是认可的,愿意去推荐,有两个原因:一、我认可开源贡献者的努力,我希望他们能够得到一定的回报,只有这样才能形成正循环,否则,把开发者雪藏了,就形成了恶性循环,我们要极力避免。二,我之所以推荐他们,嗯…..我还是希望他们能够得到一个正向的反馈。

OSCAR:在过去的几年当中,尤其是最近,我们经历了变化,包括新冠疫情的过去、 技术的变革,想请你聊一下你的看法和观点。

潘娟:谈两方面,首先,当我们谈开源的时候,不止是开源文化、开源风潮,也包括参与者,技术、公司、组织,当风潮过去之后,这些都会多少受到影响,比如说我们讨论的话题,慢慢的从开源转换到了 AI、ChatGPT,受这些影响呢,那些在高潮时发展起来的,无论是个人,还是组织、社区、公司,都受到了影响。但从另外一个角度讲,这也是回归到了正常,因为没有任何一个事情,永远是居高不下,事情本身就是一个涨潮涨落的,我们必须去接受历史的这样一个规律,没有对和错,它就是历史的发展规律,要去接受这个规律,我们只能基于这样一个现实进行调整。

OSCAR:作为你个人来讲,是 SphereEx 的 CTO、Apache ShardingSphere PMC, AWS Data Hero,OSCAR 开源尖峰人物, 身兼多职,也就是圈内的领导者,站在前面振臂高呼人,以这样一个角色,如何看待当下的局面?

潘娟:从管理者的角度来看,我能做的就是基于这个事实,尽可能掌控我周围的事情,推动他们向好的方向演进,例如我所在的社区、Apache 基金会旗下的一些项目以及我的公司。我会采取一些措施,例如调整研发周期,采用小步迭代的方式,让社区和产品可持续发展,同时也会向其他项目提供指导,确保这些项目能够继续发展。在这个时候,我们需要沉下心来,埋头去做研发,踏实做好产品。做好充足的准备迎接下一场挑战,这是我能够控制的事情。

从个人角度来讲,那作为一 KOL,我能做的就是表达出我自己的切身体会,至少让听到的人能够将我的观点作为参考。这样我就觉得非常不错了。

OSCAR:说到手上可以掌控的,那和我们聊聊 Apache 的项目,SphereEx 的产品吧~ 目前都是什么状态?

潘娟:先从开源说起吧,目前我正在 mentor 的项目是百度捐赠给 Apache 软件基金会的图数据库项目:HugeGraph ,采用小步迭代的方式来进行,由于投入是有限的,只能做一些小的可短期实现的功能,release 周期也短一些。

Apache ShardingSphere 这个项目也一样,由于是社区,目前是尽可能的去吸引更多的新人加入,让社区不断有活力进来。一些社区成员已经习惯了这个社区,受到目前的热度降低的影响,或者是其它原因,减少了一些投入,这个时候如果有一些新鲜的血液,觉得开源不错,能够加入进来,我觉得这是另外一种方式激活这个社区的发展。

从公司的角度来讲,现在这个阶段肯定是以客户为中心的,所以呢,我们现在的产品release的feature 可能不再是规划三年的事情,甚至是一年,这样会花很多时间做基础的建设,我们现在做的是三个月,是因为客户需要某种类型的特性,我们就要把时间和精力投入到这部分,实现快速的把产品推向市场,推向客户,然后就是为了拿订单,快速获得市场的验证,这是我现在能够采取的一些措施,我们的商业版已经发布了 1.6 版本,马上发 1.7 版本,就是当前客户需要什么,市场需要什么,我们就快速的满足。

OSCAR:可以举个例子吗?

潘娟:我们有一个客户,他们对于 Oracle 数据库上的加解密具有迫切的需求,处于安全的考量,必须对数据进行处理,在过去,我们就会想把 Oracle、MySQL、PG 等所有的主流数据库都进行考量,更多考虑对底层的支持,希望一劳永逸,一次性把所有数据库的加解密都支持了。现在呢,我们换了策略,我们发现更多的用户是希望支持 Oracle,比例占 50%,那么我们就会优先把这个场景先跑通,然后推向市场,如果接下来还有其它数据库需要支持,那么我们就再去做,比如 PG,是这样的一个迭代过程。

当下很多企业也在降本增效,他们也希望节省成本,比如把冷数据从生产环境迁移到便宜的存储上,尽可能的把线上数据放在冷备上,但是冷备还有查询的需求,这个时候就会想有没有一个软件能够按照一定规则自动做这些事情,这个时候 SphereEx 就会为用户提供这样的功能,即时的将线上数据安全可靠的迁移到冷备,实现降本的目的。在特殊的需求下,我们产品的设计也跟着变。

OSCAR:为用户提供解决方案,是否在 SphereEx 研发原来的规划里?

潘娟:在的,我们要做的是 Data as Service,整个围绕数据库,尤其是异构的情形下的管理、治理和数据访问的平台。理论上,我们原来的核心如解决分布式的问题,不同数据库之间的联邦查询的问题,这是我们原来的主线,副线任务,才是刚才说的冷热数据分离,但是现在呢,随着时间的推移,我们发现副线的需求渐渐增多,那么我们就需要将精力做一些分配,把副线变为新的主要任务,这是我们做的一个调整,但这些仍然在我们的“大盘子”里的一块。

OSCAR:那也就是说转换思路,集中力量做一些更为迫切需要的事情。哦,对了,可以和大家聊聊Apache ShardingSphere 最近的开发情况吗?

潘娟: ShardingSphere 是一个社区驱动的项目,不能以商业诉求去理解,当然,SphereEx 的员工是该社区很重要的力量来源之一,SphereEx 会把商业特性的更为基础和通用的代码提交给上游。另外,ShardingSphere 项目目前正在进行的特性是提高项目 SQL支持度,它不是一个特定的功能,如 CDC,它是基建的功能,更为通用,更为底层。这样的话,可以让更多人加入参与进来,比如有些公司在用 Oracle,有些公司使用 MySQL,如 A 用户只关心 Oracle,那么可能就会去支持 Oracle SQL,另外的公司,就去提供其它方言的支持。

OSCAR:你刚才提到,自己所参与的开源社区,如 ShardingSphere 社区需要引入更多的新鲜血液,这块有没有具体的方法或策略可以和大家分享一下吗?

潘娟:第一,开源项目得有的做,比如 ShardingSphere 要支持更多的 SQL,我们现在开始对接 MongoDB,有新的东西大家可做,这是根本的第一步,要是说一个项目已经完事了,也就意味着没得做了。第二,比如今天的采访,上周参加的 ApacheCon Asia,做一个大会的分享,自然而然就会带一些流量;第三,ShardingSphere 本身已经开源 5、6 年了,相对来说,流程之类的已经蛮成熟了,该提需求提需求;第四:我们在海外也会参加很多活动,比如 Open Source India, 印度本地的开源会议,只要在这样的会议上出现,就肯定会人参与,有很多种方法让人们去尝试,感兴趣的话就会进一步发展,就会有新的人加入。

以上提到的这几种方法,不一定都百分百有效,但是只要去做,就一定会有人过来。

OSCAR:SphereEx 目前的版本,从解决方案的角度讲,或者是从行业来讲,有什么样的优势?

潘娟:优势点一:免改造。比如 Oracle、MySQL、PG 等数据库等加解密,因为我们做的是一个中间层,对用户的业务影响很低,尤其是一个企业混合使用多种数据库,如果在不同的数据库中作加解密,是一件非常麻烦的事,我们提供中间层,一步就可以把不同类型的数据库都给支持了,然后业务还不需要改造,仅仅做的就是引入 SphereEx,原来指向数据库的配置,现在指向 SphereEx,这是吸引很多客户的优势之一。

优势点二:类似于轻量级数据库解决方案,举例而言,我们最近签了一个央企的客户,他们没有选择一个全新的数据库,而是基于现有的 MySQL 群 ,选用了 SphereEx ,这样的话,更安全和稳定,原有的数据库不动,而只是把SphereEX引进去,这个风险是可控的,如果说完全彻底的换一套新的数据库,就意味着要把原来的基建替换掉,这个动作会很大,这个时候谁来承担风险,尤其是核心数据, 还有就是分布式数据库周围的生态建设,比如原来是MySQL 集群、PG 集群,引进 SphereEx ,原有的架构没有变,运维人员、生态、工具都没有变,如果切换为全新的,那么就全权依赖于这家新的数据库厂商了,就有被锁定的风险了。

优势点三:成本优势,现在一提数据库,那就是开销巨大的数字,没有个几百万根本下不来,SphereEx 的目标是解决问题,而且还是低于全新数据库几倍的成本来解决实际的问题,市场上对价格敏感,又能解决问题:如查询慢,就可以多考虑 SphereEx。

OSCAR:从 CTO 的角度来看,当下的隐私计算、大模型等,该如何看待数据?

潘娟:我们回顾 20 年前,那个时候可以称的上数据荒漠了,相比于现在,有很多类型的数据库出现,相应的数据库工具的出现,以及 SphereEx 这样的数据即服务的出现,就是因为互联网移动互联网爆炸式发展,产生了很多所谓的数据资产,现在所有的东西都是数字化的,人类已经产生了无限多的数据了,现在考虑的是如何利用这些数据,怎么去挖掘价值,我们看到各式各样的数据库,大数据处理的工具等,以及开源的项目大爆发:Hadoop、Spark、Hive等,大家都在试图挖掘宝藏,开发各类应用。

ChatGPT 的出现则又是另外一种玩法了,我们提供了一定的基建,有数据资产,有非常多的软件工具能够帮助我们挖掘和使用,让数据流动起来,现在可以有大模型的训练,用上这些基建的软件,去把底层的数据价值真正高效的挖掘出来,符合场景的挖掘出来,这是很厉害的一件事,比如过去的方法:半天写点脚本,花很长的时间去试探性的挖掘,还不知道有没有用,现在不一样了,ChatGPT 等直接革了命了,原来觉得大数据训练离我们很远,现在随便登一个网站,智能客服后面就是大模型,很快就集成到应用中了,而且部署的速度是极快的,就是在我们过去所作的基建之上的新的一轮“卷”的方式,这是一件很有意思的事情。慢慢的我们会发现,我们可以用数据,保存数据,不断的去挖掘数据,最终还是用在场景上,最大化挖掘出它的价值,这个是很难产生商业价值的事情,我觉得,后面AI的公司,可能起一波再倒一波,最终会沉淀下来一些。

OSCAR:SphereEx 会拥抱这样一个过程吗?

潘娟:我觉得现在不会,我知道它是未来的一个趋势,但是我首先要考虑成本,我不可能把现有的丢掉,赶紧拥抱新的,我得保证我现在这个体量的人能够活下去,这是第一我要考虑成本问题,第二我要考虑场景和客户买不买单,这个东西最终做完,不是满足自己怎么样,而是真正符合业务的需求。

怎么能够让公司的产品和 AI 结合,满足客户的需求,才能让客户买单,这是需要进一步探索的。而且还需要相应的人才的,这些都是需要考量的,不能说因为它热,所以我们就的去拥抱它,显然是行不通的,最终是要落地的。如果说我是一个个体的话,不影响公司,愿意做什么就去做什么,但是带领整个公司去跑,这个时候考虑的是如何将AI结合到公司的产品,无论是产研投入,还是人才投入,要去打磨产品交付的,需要考量的东西还是蛮多的。

OSCAR:对于编码助手,如 GitHub Copilot 等,我们的开发人员开始用了没有?

潘娟:我们的开发者还没有用,我自己测试过,之所以没有用,并不是说这些编码助手不好,而是说我们特殊的场景,我们要写的业务逻辑,Copilot 是无法帮助我们做到这点到,它只能做一些更为基础的函数的实现,我们的研发团队最终是要为特性负责的,功能更为复杂,不是一个从 0 到 1 的过程,是一个从 80 分到 100 分的过程,是一个依赖开发者的过程。

 

OSCAR:可以为参与开源的新人提一些建议或经验参考嘛?比如是为还在上大学的学生们而言,开源意味着什么。

潘娟:鉴于招聘市场上的现状,倒是一个告诉学生尝试开源的一个契机,学生在这个阶段,一定是找到自己想做的事情,或者是技术的一个方向,又或者是快速的成为佼佼者,或者是快速的完成从学生到职场人士的转变,这些事情都是可以“前置”的,那怎么样才能“前置”了呢?那么就可以在本科后两年,或研究生期间,开源是其中一个方式,也可以选择其他的方式,开源就像是一个兴趣小组,在开源技术社团中是可以锻炼开源技术的,就像是在足球社团中联系足球技术一样。

举例而言,我们这里有一位同学,来自斯里兰卡,正在上大三,从 Google Summer of Code 进入Apache ShardingSphere ,我是他的导师,一个暑假,这位同学就掌握了这样的一套技能,处理SQL之类的,非常开心,还写了一定博客,所谓的前置就是:在没有学习校内的数据库相关课程,也没有报课外的培训班,就获得了这样的技能,而且所写的代码,公司还应用于实际环境。

再举另外一个例子,有一位同学,处于年轻人常见的不知道自己要什么的状态,刚毕业,想找一份工作,然后就在开源中做了一阵子,认识了很多平日里接触不到的人,然后就找到了方向,要不要走出去看看,这就是开源给他带来了一些契机,如果是坐着不动,那么就什么也不会有,很可能还在迷茫中。开源打开了某种机会的窗口,这也是其有意思的地方。

回到问题上,就是鼓励大家以参与社团的方式,去参与开源,参与进来,机会才有。

OSCAR:接下来就是你自由发挥的时间了。相对 OSCAR 的受众、开源圈的,Apache community 等等你希望他们听到的。

潘娟:我希望,今天是我分享,也有其他的开源尖峰人物分享,无论是谁分享,最好的方式就是行动起来,哪怕只是一个点,一定要去做,如果只是听,过一会就忘了。你只要启动起来,就一定会有变化,有了变化,就会知道,至少有大概率知道自己想要什么。

我一直信奉的是,从小的地方做,然后就是去探索,最后要坚持下去,因为只有量变才能引起质变,这三步至关重要,对我自己来说,第一步:如果想要改变,就从小开始,第二步:在这个过程不断去探索,第三步就是去坚持做,去修炼。

OSCAR:那么你选择创业这两年多,最大的感受是什么?

潘娟:创业有点像操作一艘船,原来上船的时候,不知道会遭遇什么,在航行的过程中,就会遇到触礁、暴风雨,那么我能做的就是,控制这条船尽量平稳的在正确的航线上朝着正确的方向前进,这是我非常大的一个感受。为了能够做到这一点,我的知识体系和认知、行为模式全部都在迭代,在改变。

举个例子,原来的时候,我做开源或 Community,你开心,我开心,大家一起开心,创业之后,做公司不是这样子的,在公司一定有人不开心,为了集体行动,总是要牺牲一部分人的直觉和认知的,作为决策者,必须做出权衡,必须拍板,必须推进进度,并且承担所有后果。

OSCAR:当下我们正处于一个节骨眼上,环境在发生了变化,普遍信心不足,你觉得你现在的状态会被影响到嘛?

潘娟:事物发展都是螺旋上升、有涨有落。在低潮的时候,我们要做的是审视分析自己后、调整目标、并有信心地坚持做下去!拿 SphereEx 举例。首先,我们已经建立起了比较完善的开源社区生态,产品和服务也得到了用户的认可。因此,目前的市场波动不会对我们的核心业务产生重大影响。那其次,我们公司目前的财务和资本管理策略,能够应对市场变化和不确定性。另外我们的投资者和董事会也理解基础软件开源商业公司的特殊性,并对我们的长期战略和未来发展有着充分的信心。

最后也是非常重要的一点,要去思考,这件事是不是你发自内心想做的?我相信开源技术和商业模式的力量,认可我自己决定要走的路,这就足够了,剩下的交给时间。因为我知道,无论重复多少次选择,我还是会坚定走自己想要的方向,没有人能预知未来和对错。​

(0)
上一篇 2023年9月14日 10:40
下一篇 2023年9月14日 13:11