王小川:大模型创业挺快乐,最好的大模型未必来自大厂     DATE: 2023-12-10 07:42:06

清华大学东门外不远的川大创业搜狐网络大厦 ,曾是模型搜狗的办公室 ,在今年大模型创业热潮中 ,挺快王慧文成立的乐最光年之外就在这里办公;而原搜狗CEO王小川,则将百川智能的大模大厂创业地选在了与其一路之隔的赛尔大厦  。站在这里,必自甚至可以看清对楼窗边的川大创业办公环境 。

不到一年时间 ,模型大模型创业者已经几近红海。挺快隔着马路的乐最另一面 ,光年之外创始人王慧文因健康问题离岗退出 ,大模大厂将创立不到半年的必自公司卖给美团,引起了外界对于创业者心理健康的川大创业关注 。

8月8日下午 ,模型在赛尔大厦17层的挺快一间会议室里 ,当王小川被问及此事以及“大模型创业压力大不大”时,他对第一财经等媒体说 :“我听说慧文是特别负责任的。他是国内几个主流做大模型里唯一一个没有强势的技术背景的,对他的挑战比其他家要大。工作中要做大量的技术决策、招什么人、走什么技术路线图 、需要多少计算资源……必定会面临非常多的决策压力 。”

王小川说,“不是做大模型压力大 ,是没有技术背景做决策压力会大很多,但是技术足够的话,其实挺愉悦的 ,我们的进度是在一个快乐的状态。”

“也就是说不会抑郁  ?”记者追问。

“要是慧文做成了(大模型) ,我会抑郁的 。”王小川开玩笑式地回答 。


搜索虽晚 ,但赶上AI好时候

从今年4月下场杀入大模型到现在 ,王小川说,比当年搜索引擎时候的成就感更大  。

过去 ,搜狗想从搜索转问答,搜索输入法想做续写 ,尽管当时搜狗已经做了百亿的参数模型,把全身武艺都用上了,但始终不能有效地把搜索变成问答,实现不了今天大模型才能达到的效果 。他说,今天有了大模型的加持,在搜索增强方面将大有可为 。

而对于加入如火如荼的“百模大战”,他回应  :确实每个有技术理想的企业都想下场去试一下。

ChatGPT火了,有朋友对王小川说,“你特别适合做大模型” ,因而这正好需要用到过去搜索 、输入法等相关的AI能力。他说当时回想了一下 ,自己干了20年搜索,从来没人说 :“小川 ,你适合做搜索 。”

当年王小川创立搜狗做搜索,比百度晚了四年 ,因此在行业里一直处于跟随的位置 ,做创新突破特别难  ,现在赶上了信息时代走向智能时代,大家站在同一个起跑线上 ,新的机遇来了。

王小川说,其实自己也有压力,尤其在一开头,要抵制动作走形的地方 。例如有投资人说 ,搜索公司不适合做大模型,因而谷歌也没干成 ,做搜索的人可能已经“脑子锈了”、思维固化了 ,再去做大模型可能是个减分项 。还有人认为在新公司里有“老搜狗人”的加入,不够开放,建议他要多招90 、95后海归回来的“小鲜肉”。这些压力其实不是来自内生 ,而是市场审美理念的不同。

他说 ,搜索这个模式存在太久了 ,以至于大家慢慢忘了搜索本身也是AI ,且搜索和输入法本身就是把语言AI用到极致。百川智能技术联合创始人陈炜鹏对记者举例,做大模型的第一个环节是数据从哪来 ,中文互联网网页中的数据高达万亿 、百亿量级,搜狗此前的数据积累 ,能让他们知道哪里有好的数据 ,并且将这些数据进行收集、处理 、识别,在这一领域,百川智能目前的团队有较强的技术积累和方法论。此外从人才来看 ,搜狗原有团队有着较强的战斗力 ,搜狗原COO茹立云 、原CMO洪涛相继加入进来,以及有更多年轻人才的加入 ,形成了目前百川智能的人才梯队 。

从4月宣布下场做大模型后,百川智能动作迅速 。6月发布70亿参数开源大模型Baichuan-7B,7月发布130亿参数开源大模型Baichuan-13B 。

这两款的大模型引擎 ,并没有立刻商业化 ,王小川说首先是填补空白,展现自家的技术实力,相信伴随着开源后不断的技术迭代 ,商业模式水到渠成 。他透露,目前有150余家企业申请使用百川智能大模型。

“谁是最好的大模型”还没结论

在发布两款开源大模型后 ,今日王小川发布了百川智能新模型Baichuan-53B ,不同的是,这一次是参数规模更大(530亿)的闭源大模型。

在王小川的电脑页面上 ,向百川大模型提问的对话一幕幕闪过 ,例如“以古龙的风格写个朋友圈”  、“罗刹海市的歌词是什么”、“300P算力相当于多少张A100”、“讲讲卡夫卡的名作《城堡》”等等。他说,这次大模型的文科能力更好 ,例如在理解古诗  、生成有个性化风格的文章等方面。


目前的大模型有以OpenAI GPT-4为代表的闭源大模型和以Meta Llma2为代表的开源大模型两股力量 。后者正在快速地拉拢“朋友圈” ,对前者形成有力冲击 。

谈到最近热议的开源与闭源之争时  ,王小川说 ,开源确实容易“建立人品” ,“朋友多多的” ,让大家迅速了解和评测;同时开源也是为商业化做准备,要是大家用起来觉得不错 ,当需要更好的服务和更大的参数时 ,可以探索进一步的商业化路径 。

但是他认为 ,开源和闭源并不像手机中iOS或者安卓操作系统仅仅能二选一 ,从tob角度 ,开源闭源其实都需要 。他预计未来80%的企业会用到开源的大模型 ,因而闭源没有方法对产品做更好的适配,或者成本特别高 ,闭源可以给剩下的 20%提供服务 。二者不是竞争关系,而是在不同产品中互补的关系。

王小川还提到,在6月发布第二款大模型后第二天就飞去硅谷。第一个收获是对齐认知,交流技术思路,到底走开源还是闭源……第二个收获是美国做技术很牛,但是应用能力可能有短板  。

他说,在硅谷和 OpenAI 交流时,他们讲理想时满眼放光,走得非常远 ,例如他们现在做 GPT-4 需要 2 万多张卡做计算  ,国内都没可见过这么大的规模 。对方还很自豪地说正在设计把 1000 万颗 GPU 连在一块做计算模型。“要知道英伟达一年才生产100万颗 。”而在怎样去做应用 、做产品上,这可能是OpenAI的短板 。

这让王小川意识到 ,光跟着OpenAI走是不够的,理想上确实拼不过,但是在落地上 ,更有底气了。他说在去硅谷之前自己认为,是“在理想上比OpenAI慢半步 ,在落地上比OpenAI快半步”。从硅谷回来之后改成了 :“在理想上比OpenAI一半步 ,在落地上快三步  。”

而在对比中美大模型时  ,王小川还提到 ,美国闭源大模型的头部格局几乎已经定,例如OpenAI、Anthropic的Claude,Google也拿到门票,已经没有太多悬念,投资人也不会再投 。

但中国的情况不一致 ,面对轰轰烈烈的“百模大战” ,王小川认为,钱是重要的是,最终决定的力量还是人和团队、组织能力。大厂钱多、人多、算力多 ,但组织效率通常不必定够好,创业公司的组织效率可能好 、也可能不好。“中国谁做了最好的大模型,还没有结论,大家都在争取机遇 ,而且不必定落在大厂里。”