来源:创业邦
春节期间Deepseek横空出世,再一次掀起全民关于AI的讨论热潮。如果你留意周边自动售货机,会发现越来越多的传统机器已经被新的使用AI技术的智能零售柜替代,仅仅三四年时间就彻底颠覆了中国传统自动售货机市场,这是AI伟大颠覆力的鲜活案例。
而作为它的主要推动者——丰e足食2017年由顺丰集团孵化,在面临无人货架绝境之际,借助AI技术,用了短短几年时间,将线下智能终端设备快速扩充到14万多台,在这样一个红海市场,逆袭成为无人零售行业新的市场龙头。
和许多应用场景一样,早期AI识别技术很不成熟且成本高昂,丰e足食也曾遭遇了供应商“人工掺假AI”的骗局,但团队如何克服早期技术的瑕疵,押中正确的技术路线,最终以迂为直率先实现了AI技术在智能柜的商业普及,从激烈的竞争中吃到了最大的红利,背后其实考验着创业者对市场的深刻洞察与对技术的精准判断。
今天大多数创业者也面临类似的选择,AI大潮来袭如何在正确时机进入,如何处理AI的不足与迭代,这是决定企业命运的关键问题。丰e足食究竟是如何在无人零售的“至暗时刻”找到这把独特钥匙的?这段决策故事又能给创业者带来哪些启示?
创业邦与丰e足食CEO单新宁就此展开对话:
资本泡沫破灭陷入绝境
苦寻AI解决方案
创业邦:作为八年前无人货架资本潮后,今天唯一幸存的创业企业,能否简单介绍下丰e足食的现状?
单新宁: 我们确实是无人货架时代的唯一幸存者,经过近八年时间,今天我们在全国铺设了超过14万个AI智能零售柜,服务了超过10万家企业,去年底无论从点位体量和零售收入看,都成为了无人零售行业龙头,并且去年实现了盈利。
可以说AI智能柜拯救了丰e足食,也颠覆了无人零售行业。
创业邦:自动售货机行业其实已经存在了几十年了,你们当时为什么会想到应用AI呢?
单新宁:当时无人货架的主要困境是高额的货损成本和无解的破窗效应难题,所以为了生存,所有的企业都在努力找新的设备替代,让这个故事可以继续讲下去。但是传统售货机成本高达2-3万,稍便宜的弹簧机成本也要六七千,故障率还高。我们当时单机月销售额还不足1000元,根本用不起这样的设备。我们测算过任何硬件投入高于3000元的方案,从成本上还不如无人货架。所以我们苦恼的不是要不要用AI,而是要找到用的起的AI。
据我们了解,很多无人零售企业当时都试过各种智能的设备,也有很多创业者在提供不同技术方案, 为什么你们不直接用现成的方案呢?
单新宁:市场上确实有很多种技术路线,主要包括RFID方案、重力感应方案和静态图片识别方案。但是都有各自的问题,都不能满足我们的需求。
RFID方案的硬件和操作成本,平摊到每一件商品上高达四五毛,应用在单价3块钱左右的饮料上太浪费了。重力感应方案就是通过对比开关门前后的库存重量,推算出拿走的是什么商品,也就是“算重力差值”。它对标准化瓶装和罐装饮料识别效果较好,但无法识别同重量不同口味的(比如可乐与无糖可乐)产品,也无法识别重量波动较大的非饮料产品,核心部件高精密重力传感器的运维也是难题,因此更多作为其它技术的辅助。
而当时兴起的AI图片识别技术给行业带来了生机,多个创业公司推出了静态图片识别方案,我们叫静态柜,即在冰箱每层顶部加摄像头,通过比对开关门前后的照片差异来识别拿走的商品,即“数瓶盖差异”。图片识别从技术上也是成熟的,对资本吸引力也是最好的,很快成为了无人零售的主流方案。除丰e足食以外,几乎剩下的无人零售创业企业都选择了静态柜。
创业邦:如果大家都在用,你们当时为什么不选择呢?你们是怎么考虑的?
单新宁:静态柜确实能解决识别问题,但从运营上有非常大的弊端。1)为了给拍照留够足够的角度,柜体层高要求非常高,且商品不能堆叠,空间利用浪费巨大;2)对火腿肠、辣条等不规则包装商品,也无法支持。3) 新品学习需要重新建模,研发投入大,周期长。4)每一层都要加入摄像头成本,总成本高达6000-7000元/台。总体而言静态柜,尤其是考虑对空间利用和品类的限制,相比传统售货机并没有展现明显的优势,大多数传统中小运营商都在观望。
当时我们手里有几万个无人货架急需用智能柜替代,团队对各种技术路线进行了全面评估和测试,但6000-7000元的成本实在太高,且对品类的限制(例如需要放弃柜子里占30%-40%的非水饮销量)和空间浪费对我们影响最大。我们本来就是要用智能柜改善盈利,也就是说必须挣钱,而不是讲一个AI故事。如果AI意味着更低的销售额,更大的成本,我们没法选。但是大家都在用,所以我们当时非常纠结要不要跟:不跟,无人货架的问题已经火烧眉毛了;跟进,又怕技术路径选错了,再回头就困难了。
假AI真人工“受骗”
反常识决策“将错就错”
创业邦:你们后来是怎样接触到视频识别技术方案的?这个方案解决了你们的问题吗?
单新宁:2019年底一家我们原来拒绝过的静态柜创业公司找到我们,说他们根据我们的需求推出了新的方案,从图片AI识别升级到视频AI识别,即动态视频识别柜,我们行业叫动态柜。这个方案不再识别商品的瓶盖数量差异,转而识别商品从柜子里被拿走的视频。这就意味着智能柜里面再没有摆放限制,没有品类限制,没有堆叠限制,空间利用足,新品学习也无额外成本。我们开始不相信,经过1000台设备测试后发现效果确实很好,准确率很高,只要视频拍到手上拿的是什么,AI就能识别出来。这么惊人的技术进步,让我们感到非常惊喜。我们都觉得技术太伟大了,但很快我们出现了新的纠结。
创业邦:新的方案完全达到你们的需求,你们为什么还继续纠结呢?
单新宁:因为它太好了,有点让人觉得不真实。有这么多苛刻条件的图片识别还会经常出错,没有任何限制的模糊视频居然准确率这么高,商务上也更便宜,我们不敢相信,事出反常必有妖,怕有什么问题还没有暴露。
后来偶然发生了一件事,才发现它的幕后实情。我是重度可乐爱好者,每天都要喝几瓶来解压,有一天我留意了下订单结算时长。发现结果波动很大,有时候三十多秒,有时候要几分钟。我一想不对,算法不该有这么大的波动,就立刻问对方负责人,对方一开始躲躲闪闪,最终承认部分订单是通过人工识别来做的,即人工看视频打标注。我马上判断肯定绝大多数都是人工识别的,因为可乐的订单量最多,特征值最明显,任何技术应该首先识别的是可乐,如果可乐都靠人工,意味着几乎全靠人工。
创业邦:知道背后是假AI真人工,发现上当之后,你们的第一时间感受是什么?
单新宁:我们团队刚开始听到这个消息,都非常的气愤。新的突破口没有了,还被假人工智能戏耍了,智商受到了侮辱(笑)。我也很生气,把那个负责人好好骂了一顿,自己懊恼得几天晚上都睡不着觉,但是过了三天之后,我做了一个所有人都没想到的决定,我通知那个负责人,假AI就假AI,我要下一万台订单。
创业邦:知道是假的反而继续下单,这个确实是一个反常识的决定。你当时是怎么想的?
单新宁:首先目前的方案在功能上已经完美满足了我们的需求,是不是真AI真的这么重要么?技术的核心是解决问题,不能买椟还珠。第二我们马上意识到,现在成本4000-5000元多,但是砍掉更多用来撑假门面的无效投入,将成本进一步降到三千左右是可能的。更重要的是,人工处理一笔订单20s,后台一个人的产能可以做到1天1200-1500多单,现在每单收费1毛5,是可以覆盖人工和管理成本,商业上也是可持续的模式。功能完美满足,商业上可持续,成本还可以再降,你还想要什么东西?
我们此前担心技术选错,担心背后有坑,现在可以说被坑到底部了,而且发现原来没用什么技术,反而也不再有什么技术路径风险,所以就不需要纠结再等了。
想明白这个逻辑,我就通知供应商不要再假装什么AI了,大家坦诚一点,立刻下单一万台。
创业邦:团队内部对你这个决策理解么?你是如何说服他们的?
单新宁:说实话团队内部的反对意见特别大。全行业都用静态柜,你用一样的,就算错了也没什么责任,自己独自选择一条怪路,万一错了你的责任就大了。而且团队提到了几个关键技术问题,看起来是无解的:一是订单无法实时结算,平均要两分钟,复杂订单可能十几分钟才扣款,严重影响用户体验;二是人工识别不如成熟的图片算法准确,毕竟图像识别非常成熟;三是小批量1000台靠人没问题,将来丰e扩大到10万、20万台时,靠人工也能支撑么?
我们是一个战斗力很强的创业团队,认知统一非常重要,我其实花了很大精力说服团队:
第一,订单其实不需要这么实时的结算,充电宝和共享单车的案例说明,消费者对低客单价的结算时间并不敏感,且人均月消费四五次。即使短期有疑虑,消费几次之后,就会建立对结算的信任,疑虑一定会打消。我们还可以通过识别人员管理和精准的订单量预测,将时效控制在尽可能接受的范围之内,比如平均在1分钟内,这就足够了。
第二,人工识别恰恰保证了识别准确率。在品类不受限制的情况下,再好的方案也不如人亲自看。人工为了算法做了兜底,算法有绝对把握的订单就走算法,算法没把握的订单就用人工,而且不是纯人工,算法可以把选择范围大幅缩小后再由人工确认,会显著提高效率。我们这个场景容错空间比较大,有了运营兜底,同等条件下,有人工识别辅助准确度一定会更高。
最后说到审核人员的投入。一个人可以远程管理150-200台柜子,即使未来极限做到50万台柜子,真要招两三千人也没什么可怕的,我们是顺丰出来的,有管理大型呼叫中心的经验,只要成本划算,几千人的规模无论是外包还是自建,都没有问题。
创业邦:听起来你其实是一个务实的“AI怀疑”者,更倾向于用运营方式解决问题。
单新宁:不,我恰恰认为我们骨子里是一群AI虔诚信仰者。AI完美做出来了才信,不是真的信,AI还有很大问题,但相信技术将来能做到,并愿意提前押注,这才是真的信。
首先再怎么信仰AI,也还是要回归零售的本质。消费者买的是商品,而不是识别技术。我相信消费者只会为品类丰富度和库存丰富度买单,不会为到底是哪种识别方式买单。而且人工识别的方案并不是没有创新,相反是组织方式的巨大创新,一台柜子平均每天开门交易时间才2分钟,为了防盗派专人值守则99%的时间是浪费的,现在可以让一个人同时看200-300台柜子,这怎么不算巨大的生产力创新。
其次我们信AI也更相信AI发展规律。AI产品的研发最大的问题是高质量的数据搜集,到底是先有数据算法还是先有市场客户?没有足够多的客户,搜集不到足够好的数据,就没办法做出足够好的产品。可是没有足够好的产品,哪里来的客户呢?早期我们选择用人工去扛服务,搜集数据的同时标注数据,不仅不需要额外的研发成本,直接把数据标注融入到生产环节,这是AI产品研发流程的巨大创新,解决了先有鸡还是先有蛋的问题。
我们当时就确定三年时间机器视觉就会很大程度上解决我们这个行业的问题,假的AI会变成真正的AI。而我们就可以利用这三年的认知差时间,抢占整个市场,坐等技术真正实现,就可以成为行业最大受益者。
创业邦:你们当时凭什么这么笃定真正的AI视频识别技术会在三年内实现?
单新宁:还是对AI发展规律的坚信,尤其是对场景的特性和数据特性的信心。
我们的视频数据质量是非常高的,高标准化、高同质化,且都是100%精准标注好的。订单量如此之大,单品数据将来都是千万级甚至亿级的,远超一般AI识别的数据量;再加上容错空间很大,AI不行就用人兜底,即使万分之一的订单错了,也可以通过运营方式安抚客户,特别适合AI边用边迭代的模式。因此这个问题就是AI问题里面的小学题,是最容易的。
而另一方面这个场景的AI变现非常直接,我们当时每笔识别成本0.15元,理论上可以为每一笔AI识别支付超过0.1元钱,未来整个行业是数亿甚至几十亿级别的订单,意味着亿级的市场空间,商业模式非常清晰,肯定会吸引技术方案商进入。再加上全球的大厂们几千亿几万亿的砸钱,有几十万工程师投入在AI通用模型的研发和底层算法的升级,其实一定程度上都是在帮我们解题做准备。如果我们相信AI将来至少在机器视觉识别领域的能力,相信AI终究能解决诸如自动驾驶等更复杂的问题,那有什么理由我们这个场景做不到呢?一旦技术或者底层算法有突破,我们有几十亿笔高质量的数据,随时可以提供出来作为数据源。因此我们真的对未来从人工转变成真算法识别非常笃定,估计三年,最多五年。
不碰硬件,只抢市场
抓紧窗口变龙头
创业邦:“知假用假”,”将错就错”,不能不说这个决策还是挺冒险的,接下来你们是怎么做的?
单新宁:团队被说服后都很兴奋。我们都意识到丰e足食掌握了极其重要的认知突破,这将给我们带来巨大的先发优势。我们马上从三个方面入手,抢占先机:
首先,设立一整套的人工识别的技术标准。既然已经主要是人工了,我们就按照人工来考核供应商,比如识别准确度、识别时长,数据隐私安全等等,设立一系列的规范。同时我们通过结算差异化定价的激励方式,你用的算法越多,速度越快,我给你的结算价就高或者订单更多,通过奖励AI识别的占比,鼓励技术投入。
其次,在原有基础上优化硬件结构,继续降低成本。我们输出了相关的标准,比如摄像头规格等等,并将一些为了“AI包装”的结构都砍掉或者降配,比如超高清的摄像头、高算力芯片,促使成本大幅降低。
最后,扩大供应商范围。我们努力说服行业很多的静态柜服务商,转型动态视频技术,也就是先将识别全部切换成人工,然后再用算法补上来。有一些大厂和AI创业公司,还在纠结算法的准确度和新品学习时间,听完我们的方案都惊呆了。
很多人将这种离经叛道看成是对他们的侮辱,他们要继续做AI,不想做成一个数据标注公司。多数都明确拒绝我们了,包括AI四小龙之一和几家家电龙头企业。
我们只好继续找稍微小一点的创业团队,最终选择与嗨便利、轻购云、哈哈零兽三个创业公司合作。依靠我们的十几万台设备的订单体量,使得他们的供应链、技术与服务能力都达到了行业领先的水平,今天他们都是行业的佼佼者。
我们迅速就用动态柜大力抢夺市场,正如我们所料,无论是成本还是服务体验上,都构成了对传统售货机和静态柜的降维打击,我们抢占了很多新的场景,迅速做到了行业第一。
创业邦:其实你们也可以选择自己做智能柜硬件和算法,也许这样收益更高,还可以垄断市场?
单新宁:自己做不做,这个问题我们纠结了很久。最终大家讨论后决定不做。第一,丰e足食其实整个顺丰核心价值观都是讲究共赢和聚焦,不能什么都自己做,否则做不长远;第二,我们判断无人零售的核心在运营,我们必须把所有精力全部投入到怎么更好地做好运营,服务好客户。如果又要管制造工厂,又要管识别客服,精力分散可能两头空;第三,我们判断动态柜的认知就是一层窗户纸,很难防止技术扩散,在中国今天制造业产能过剩的背景下,未来竞争一定会非常激烈;第四,三个合作伙伴都非常优秀,他们比我们更擅长,我们没有制造业基因,不可能比他们做得更好。今天他们都是行业最大的几家设备服务商,已经证明做设备我们不可能竞争得过他们。
当然我们不自己生产设备,也还是牢牢主导着我们硬件的标准化,识别质量体系以及底层的IOT平台。同时我们相对中立的地位,使得我们得以大力推动整个行业的设备成本优化、AI识别的应用。我们还率先推动了智能柜与金融工具的融合,使分期成为行业的主流方案,大幅降低了设备投入成本。这些年来我们还重点关注服务质量、硬件标准、个人信息及隐私保护,并联合头部的设备商们在业内率先推出了多个标准。就因为我们不自己做设备,合作伙伴和我们的互信非常好,大家共同做成了很多对整个行业都有利的事情,让我们这个行业变得更健康和规范,目前看起来这个决策是非常正确的。
创业邦:所以你们放弃成为设备与算法的垄断者或领先者,实际成为了动态柜行业的认知启蒙者、生态设计者和标准主导者?不碰设备,只抢市场,这其实也是一个反常识的决策,这个决策对你们有什么影响?
单新宁:我更愿意说我们选择了做动态柜的探路者和推动者,以及标准协调者。行业的发展是很多人共同推动的,我们的贡献大一点。
不碰设备,只抢市场,这个决策让我们得以把所有精力投入到市场抢夺上。因为窗口期一定很短,丰e足食用三年时间从1万个智能柜,迅速增加到今天14万个点位规模,这是国内无人零售行业上前所未有的规模高度,在以中小运营商为主的极其碎片化的无人零售市场,一枝独秀,我们牢牢把握住了这个机会。
此外,因为率先大规模完成超万台动态柜的运营,迅速优化了盈利模型,让我们得以抓住了2021年消费资本泡沫的最后一波,拿到了无人零售最后一笔融资。
当时还有个小插曲,一个投资人本来是投技术的,一开始以为我们是个AI公司,我们主动告知实情后,他震惊了半天。但是经过沟通,他认同我们一系列决策,并且看到我们的务实与理性,反而坚定了投资信心。这样我们在2021年底完成3亿融资,投资人包括软银亚洲、中金、深创投,公司也成为一家真正的创业公司。这笔融资至关重要,节奏哪怕再晚一两个月,可能结果就完全不同。后面消费投资遇冷,我们又引进了湖南财信的B轮投资,增长与盈利节奏仍是至关重要。
创业邦:但这也意味着你们其实本可以成为一个今天风口上的AI技术公司,现在变成了重运营的零售公司?
单新宁:首先我认为机会的取舍是必须的。当机会来临你只能摘取最大的那个桃子,不能什么都吃下来。又做设备又运营,运营同行不会买你的设备,你的成本无法靠规模分摊,设备同行提防你,你用的设备也不会是行业最好的。
其次我们今天肯定是一家AI技术公司,AI在无人零售的作用被很多人低估,商品识别其实是AI应用的一小块。我们放弃商品识别算法,转而将资源砸在算法对运营服务质量的提升上,这几年每年研发投入都超六千万,这个强度也远超很多设备厂商和其他运营商。
我们已经在大量使用AI解决运营问题,比如怎么选品,怎么配置库存,怎么管理效期,怎么差异化营销,怎么规划补货人员的线路和任务。丰e足食模式是100%直营,没有加盟和所谓的合伙人,每一个点位都要自己管,如果不用算法,根本无法驾驭全国十几万个点位近百个场景的差异化运营。我们应用了很多前沿的技术和工具,很多都是零售行业的前所未有的探索。从19年开始,我们就和北美以及国内(包括香港)七八所TOP高校的十几个顶级教授建立了合作,不仅解决我们大量的运营问题,一些前沿学术研究成果也被全球一些顶刊和顶级年会收录,最近也和港中深(注:香港中文大学(深圳))成立了行业第一家智慧零售联合实验室。得益于这些投入和积累,今天丰e足食对场景的理解、客户服务质量、运营效率在行业里面绝对领先。
我们大部分管理团队来自于顺丰,运营当然是强项,但可以自信的说我们也是无人零售行业投入最多技术最强的AI公司,也是大零售领域技术驱动做得较好的企业之一,我们只是不做设备和识别。
赌对技术发展,假AI成为真算法
创业邦:丰e足食率先采取视频识别之后,如果这个效果这么明显的话,行业里面其他人为什么没有迅速跟进呢?你们怎么保持这个秘密的?或者怎么控制上游的?
单新宁:其实我们没有保密,也没有限制合作伙伴对外供货,反而还不断说服一些运营商和品牌商同行放弃传统售货机和静态柜,尽快转型动态柜。这个行业若只靠我们的力量,硬件和识别成本不可能降下来。但我们的推荐效果不是很好,很多人认为传统售货机的形态在全球各国市场都存在了几十年了,压根不相信短期会被智能柜替代。而“靠人工”这个当时争议真的很大,可能也太刷新三观了。
大部分人听了我们的逻辑,半信半疑,犹豫不已,毕竟换设备是一个非常慎重的决定,想再看两三年。但两三年时间可以改变很多事情。
还有些设备厂商和静态柜方案商抱怨说丰e足食搅黄了整个行业,让踏踏实实做算法的被“假AI”所卷死,是劣币驱逐良币的首犯,当时还要威胁去找顺丰集团举报知假造假,也有威胁要到投资人面前戳穿我们这个AI的西洋镜。但我们心里有底气,从不担心。窗户纸虽然很薄,但是也不是这么好捅破的。
创业邦:目前动态柜的技术发展现状如何?你们当时的判断赌对了么?
单新宁:动态柜今天成为绝对主流,估计占到无人零售设备新增出货量的80%-90%,传统售货机行业饱受打击,其他技术路线退出中国主流市场已不可逆,丰e足食逆转了智能柜的技术路线。如今市场上大量中小企业换柜,释放出海量二手传统售货机,已经彻底把价格击穿,一些九成新原来卖七八千,现在能卖两千就不错了。我们原本有4000多台自动售货机,也逐渐淘汰光了。整个行业换柜是一个非常确定的大潮流,2023年我们最大的友商也开始将旗下所有静态柜改装成动态柜,静态柜最后一个大堡垒也宣布攻破,但比我们晚了近4年时间。
视觉识别技术发展速度也比我们想的情况还要快。从我们开始大规模使用时起,纯算法识别或者算法辅助人工确认的占比就越来越高,平均订单处理时长从100秒优化至现在30多秒(这还包括了视频上传时间),尽管场景和品类复杂度翻了很多倍,但算法+人工的准确率一直维持99%以上。而硬件成本也大幅降低,识别成本已经不足原来的一半,我们点位翻了几倍,人工标注的人数非但没有成倍扩张,还在逐年大幅减少。2024年大模型带来的新技术突破,将算法比例进一步大幅度提升,国内多家AI创业公司,都在视频识别算法上有大幅突破,几家AI四小龙也参与进来,在前几天刚刚举行的行业论坛上,有多家公司宣称算法识别比例已经能做到90%。因此丰e足食今天可以代表整个行业宣布,视觉识别主流技术已经告别纯人工识别,实现了真正的AI主导,纯智能的智能柜的曙光已经越来越近了。
预判与押注
AI创业者可借鉴的经验
创业邦:你能否快速总结一下,丰e足食在关键时刻究竟做对了什么?为什么可以连续赌对?
单新宁:第一,“将错就错”选择了动态柜,大胆接受初期的人工介入,长期押注技术升级;第二,果断放弃两线作战,克制设备自研,抓紧抢占市场,大力投入AI于核心运营。
但我不认为是赌,我们所有的决策,都是基于对AI技术信心以及AI发展规律的预判。整体来说,后面无论是市场变化还是技术发展,基本都在我们的判断之内。
创业邦:现在几乎所有的企业都在讨论AI,很多创业者都想抓住这波机会后来居上,你觉得丰e足食这些决策,对其他创业者有什么启发?
单新宁:我们自身也在复盘,也经常和投资人讨论这个问题。无人零售是一个非常小的行业,丰e足食做到第一其实也很小而且远谈不上成功。但我认为有些经验是可以分享的,我们自己总结了几点:
第一,永远不要低估AI的能力,AI颠覆一个行业比很多人预期的要快得多,彻底得多。
第二,用户不会为AI技术本身买单,只会为它创造的价值买单,不能为了AI而AI。
第三,先行一步才有机会,但彼时AI必然是有瑕疵的,可如等到AI无瑕疵再进去,机会也没有了。所以商业模型要能容错,对AI的不足要通过运营兜底,不要觉得人工介入是丢脸的事。
第四,AI一旦在细分场景突破,窗口期会很短,要学会共赢与协作,机会很多,别什么都做,抓住时间抢最大的桃子。
第五,认知就是一层窗户纸,但是它的价值怎么高估都不为过,一旦捅破就海阔天空,创业者要敢于捅破束缚自己的窗户纸。