

口袋里的植物学家
作者:陈赛认识的第一步是知道名字。很不幸的是,我们周围的各种生命,花鸟鱼虫,大部分都是匿名的。我们每天看到各种花花草草,除了最常见的几种,几乎叫不出几个名字,有时候连最常见的也会叫错。有一些也许知道俗称,但不知道正式的名字是什么。即使叫得出名字的,对于它的性状、花期、果实也往往一无所知。更多的时候,我们根本不在乎这些,谁关心这朵花是桃花还是垂丝海棠?谁关心这棵树叫枫树还是鸡爪槭?谁关心这是鼠尾草还是薰衣草?
但是,有时候,当你将植物与某个名字连接在一起,这个植物对你的意义瞬间就不一样了。比如有一次,我带孩子上幼儿园,经过路边的一个小花园,看到一丛紫色小花。虫虫突然指着那些花说:“妈妈,看,紫花地丁。”我赶紧拿出手机用“形色”拍一下,果然是紫花地丁。我只在川端康成的《古都》中读到过这种花,但从来不知道它长什么样子。因为这个名字,在那天熹微的晨光中,这几棵不起眼的紫色小花在我眼中顿时有了一种楚楚动人的情致与令人惆怅的命运感。
于是,我俯身细细打量这些小花,竟然长得非常精致,从根部抽出细细的花茎,花是深紫色的,但有微小的深浅变化,其中有一朵花的花瓣颜色淡至白色,但紫色纹路清晰深刻,花的背部还有一个小小的突起,非常可爱。都说朝花夕拾,但想到这朵小花用了数百万年时间进化出来的这些特征,也许还会这么延续数百万年,相比之下,难道不是我们的一生更加短暂和脆弱?
人在年轻的时候很少会留意到花,因为他们的生命中有太多比花更重要的事情,比如爱情、事业、房子,但一旦人到中年,曾经的雄心壮志多多少少受过了挫败与打压,才会渐渐有了耐心和兴致来观察这些草木花朵,从它们的枯荣中感应到某种类似天命的东西,或者窥见某种更广阔的天地,而曾经的那些挫败、疯狂、失望,都显得没那么重要了。
这大概就是形色君为什么会在城市中年人群里先火起来的原因。“形色”是一个专门辨识花草的人工智能应用,据称能识别我们身边最常见的4000多种植物,而且只要一秒就能给出结果(1~3个答案),识别率为98%。而且,你不得不佩服,一群程序员想出了这样一个诗意的名字。
关于形色的由来,据称是一个程序员爸爸经常被儿子缠着问花花草草的名字,而且往往答不上来。当时他的团队开发的深度学习算法恰好无用武之地,就用在了辨认植物上。
怎么训练一个机器学习植物分类学呢?
对人类来说,这是一门非常复杂的学问。世界上已经被认识和命名的植物一共有40万种,每种植物都不一样,不仅不同部位的颜色、形态、纹路不一样,即使同一种植物,不同的生长周期形态也不一样,比如莲子、莲叶、莲花、莲藕、莲蓬都是莲花,到了冬天枯萎了也还是莲花。
形色学会辨认植物,用的是深度学习的方法。深度学习的核心是“深度卷积神经网络”,将机器置于海量的数据,让它自己从数据中摸索出错综复杂的结构和规律,并用于推断新的情境。AlphaGo就是这样学会下围棋的,形色也一样,它需要从海量的植物图片库中自主学会如何辨认一种植物的独特特征。
在采访形色的另一位创始人徐青松时,他用“炼丹术”来形容他们是如何训练形色君成为一个新时代的植物学家的。“炼丹需要四个基本元素,深度学习的计算框架就是炉子,运算能力是火力,数据是药材,放进去后还要时刻观察反馈。最后炼出一颗丹药来,就是深度学习的算法模型。”
所以,一个人工智能有多聪明,很大程度上取决于训练数据的质量。3年前,形色最初使用的训练数据只是网络上一些公开的植物数据库,植物品种不超过200种,有时候还要他们自己出去拍一些回来。机器的识别率也很低(40%),所以在给出答案时,还经常要他们自己的员工搬一本植物大百科全书一张张对着认,即使这样机器加人工,也还不一定认得对。“不过,那时候我们一共也就几千个用户,一天大概也就处理几千张照片,还处理得过来。”徐青松告诉我。
半年后,除了大量算法的优化之外,他们还与植物学界专家和资源合作,尤其是与中国自然标本馆(CFH)的深度合作,形色的识别率由此提高了将近一倍。“这时候用户的体验已经相当不错了。每次都能给你一个还算靠谱的答案。”
“人工智能里有一个环,产品—用户—数据。好的产品会刺激用户产生更多的数据,这些数据又再次反馈到产品,形成一个良性循环。”徐青松说。
现在,形色用户达到4000万,数据库中的照片高达5.4亿张,每天上传的图片从250万到500万张不等,精确度则可以达到95%~98%。在徐青松的计划里,除了植物之外,形色的识别技术以后还会拓展到菌类、虫、鸟、鱼等物种上,也就是说,它会成为一个真正的博物学家——“在户外,你不知道任何东西,形色都能告诉你它是什么”。
徐青松显然对于他们的数据库之庞大十分自信。仅就植物而言,形色的确已经是世界上最大的植物图片库。但对形色而言,数据既是它的长处,也是它的弱点。随着数据库的不断增长,它能够识别的物种会越来越多(预计会扩大到1.5万种),准确率也会越来越高,它将不仅能认识植物开花时的照片,还能够识别枯萎,或者落叶时的照片。但与此同时,这些数据会自我强化,用户拍得越多的植物,形色给出的答案也会越准确,用户拍得少的植物,形色的识别则会越来越粗放。“所有大的应用都有这个问题,微信、抖音都是这样。到了数据能说话的时候,都是数据来决定,而不是人来创造这个产品。”
几年前,我采访微软小冰的工程师李笛,他曾经说过,小冰的个性与聊天风格,在很大程度上反映了中国互联网的性格。“从中国互联网的大数据中只能训练出一个17岁的女高中生,而不可能训练出一个沉稳睿智的大叔。”
那么,从这些数据中、训练中来的形色,又会是怎样的一位博物学家呢?
中国一共有十几万种植物,形色能辨认4000多种。按照徐青松的说法,从广度而言,今天很少有专业的植物学家能超过它。但他也承认,对于植物,形色目前大部分只能鉴定到种,但很少能细化到品种,对每一种具体植物的属性了解也很浅。
正如伯恩德·海因里希在《森林的故事》一书中所说:“对我们来说,无法识别的事物就等于不存在。引申一下,即能够识别的事物是属于我们的。”但命名有时候也可能成为一个陷阱,好像知道了植物的名字就等于了解了它的一切,仿佛一个名字就代表了这个植物的结构、进化历史和生命能量的复杂综合体。
目前,形色辨认最为准确的绝大部分是城市植物,这是因为它的用户绝大部分是城市人群。他们在茶余饭后拍摄植物的照片,无论他们向形色所寻求的是一种心理上的所有权也好,朋友圈的谈资也好,总之随着城市植物的数据越来越多,它的识别就会越来越准确,但与此同时,它也会自动边缘化其他的植物。难怪有植物学家说:“形色在城市植物的识别上很准,但一到野外就抓瞎。”
相比之下,美国有一个叫Inaturalist的人工智能App,用户以野外观察者为主,它的数据库中虽然只有530万张照片,但代表了11.7万个物种。有时候还会有非常奇妙的发现,比如一个哥伦比亚的退休商人在2011年上传了一张红黑相间的青蛙照片,这是在他刚刚买下的一片雨林里拍到的。结果,经一位蛙类学家鉴定,这是一种全新的物种。几年后,这位学者还发表了一篇关于这个两栖类动物的论文。2014年,一个野生动物摄影师上传了一张他在越南拍摄的蛇的照片,20个月后,有专家指出这种蛇叫Myxostomapetiverianum,是英国博物学家詹姆斯·库克于18世纪发现的,但从来没有人拍到过它的照片。
“形色不是服务于科研或者学术,而是服务于4000万形色用户的好奇心。”徐青松说,“我们的5亿多张照片里有没有从没被发现过的物种?我相信一定有,只不过我们不知道而已。”
就像它的用户一样,形色也有一点都市小清新的倾向,尤其是对颜值的执念。对于那些颜值高的花花草草,比如山茶花、玫瑰、杜鹃、月季等,形色图片库的图片可以高达数百万张(其他高达数百万张级别的植物还有绿萝、多肉等办公室植物)。当然,你可以说,这是对美的共同偏好,但美又岂止一种标准?
按照徐青松的说法,作为一款大众消费产品,形色注定是一种比较浅的观察方式。因为它的识别唯一能依赖的就是图片,而且每次只能依据一张图片,这意味着只有人眼一眼能看出来的,形色才能看出来。如果需要两眼或者三眼,甚至需要动用其他感官,比如嗅觉、触觉,形色就会束手无策。
就人工智能而言,我们或者不应该苛求它的感知缺乏深度,但它的这一点特质却是关于我们现代人与植物,乃至整个自然之间关系的一种绝妙的隐喻。正如斯坦福大学文学教授罗伯特·哈里森在《花园:谈人之为人》中所说,今天的自然,于我们而言,只是影像,而不是现象。影像是一目了然的,而现象充满暗示。现象之催人感怀——它们令人心碎的美,它们唤起情思的魅力——是由于光阴不再;正是流变的时光将我们的心绪丝丝入扣地织进了大自然瞬息变幻的氛围。
几年前,我在斯坦福大学采访他,他带我到斯坦福校园中心的一个花园散步,花园非常美,满目绿意,石径拱桥,流水环绕,正中间是一个古朴的石砌池塘。我们就坐在池塘边上,看着学生们一个接一个地走过,却没有一个人低头看一眼,沉沉的青苔映衬着白色的睡莲是多么地美。
他说,在如今的西方社会里,最受冷落的莫过于“观看”这门艺术了。我们对现象的感知力如此之贫乏,很多人已经压根儿看不见现象世界了,除非是心不在焉,毛毛糙糙地一眼带过。纵使世界上遍布着花园,我们其实生活在一个没有花园的时代。
为什么呢?
他的解释是,现象世界的光芒只在时间的深度与心智的求索二者交汇中方可显现——而这两者恰恰是我们这个时代愈来愈匮乏的东西。
不久前,我的朋友圈里晒出了杭州太子湾公园绚丽夺目的郁金香、樱花和牡丹。趁着出差之便,我怀着一日看尽西湖花的雄心壮志,从苏堤赶到太子湾,路上整整堵了一个小时,却发现所有的花都已经凋谢了。
果然是人间四月芳菲尽,为什么我竟然完全没有想到呢?我无比失落地看着那一大片绿油油的草坪,一度绚烂的花事如今只剩下一圈郁金香的残枝败叶,我用形色君拍了一下,结果它告诉我这是玉米。
我无比惆怅地走到一块大石头处,对着一潭湖水发呆。因为一年一度最盛大的花事已了,太子湾这个昔日最为热闹的公园如今难得地静谧,游人寥寥,流水潺潺,柳树在飘絮,枫树在发芽,玫红色的酢浆草错落有致地点缀其间,湖边种满了黄菖蒲,也才刚刚开出几朵黄色的花。风吹湖面,偶尔一两个气泡,提醒我底下还有另一种生命的世界。
割草机正在工作,空气中弥漫着青草的气息。在这样的气息中,我觉得自己仿佛捕捉到了现象世界的一点光芒。尽管转瞬即逝,但至少足以让我对这些花花草草生出了一种珍惜,与名字无关,与颜值无关,只是觉得这一刻我们的命运如此地交缠在一起,无可分割。
我想起美国作家南希·胡格在《怎样观察一棵树》中所写的:“我最浪漫的想象,大概是我能让人们充分注意到红花槭花朵的美丽、枫香果球不可思议的构造,以及松果等精致的现象,树木的世界就能安然无恙。” 花园植物花草