扬帆创投微信小程序
更聚焦的出海投融资平台
精准高效领先的融资对接服务
微信扫一扫进入小程序

用文字描述搜索图片,听起来不可思议的事情已经成真了

从流行复古的千禧年到赛博2023年,科技越来越发达,人们手中的小灵通换成翻盖手机又换成智能机。如今,不必包里背着随身听、傻瓜相机,一个手机就解决了人的一切需求。

 

智能手机功能愈加丰富,人们却又有了新的烦恼——手机空间不足,聊天应用动辄占据几十G的空间;想搜照片,却要从几千张中“大海捞针”。你看,科技在进化,烦恼也是。

  

当层出不穷的新需求出现,热衷用技术解决问题的开发者也在为市场带来新的惊喜。今年2月,由个人开发者@Mazzzystar制作的应用寻隐(英文名:Queryable)正式上线国内外,不仅取得了国内Top1的成绩,上线当日同时斩获欧洲多国工具榜Top1,美国工具榜Top2。

 

用文字描述搜索图片,听起来不可思议的事情已经成真了。

 

文字搜图走进现实

 

想象一下,某时某刻某地,你的大脑中突然闪现出一张令人印象深刻的图片,而且你记得很清楚,这张照片现在就存储在手机相册的某个位置,但动辄上万的照片淹没了它。大多情况下,“找不到”才是最不出意料的结果。

 

这种时刻,寻隐主打的“用文字搜索图像”就派上了大用场。它使用起来相当简单,对于初次使用的用户来说,首先需要开放“允许访问相册”的权限完成“索引”,将整个相册的照片先行计算向量并存储。据开发者描述,寻隐1分钟大概可以处理2000张照片。处理完成后,就可以尝试使用搜索栏查找图片了。

 

说到「文本搜索图片」,其实苹果手机自带的相册已经具备相应功能,但两者之间的实现程度却完全不同。使用苹果系统自带的搜索,你可以用一个词语搜出与之相关的图片,比如“猫/狗”。但如果用稍长一点的形容句子作为搜索关键词,那就实在太难为搜索系统了。

 

在苹果相册中搜索“猫”和“猫猫在晒太阳” 效果如图所示

 

相比之下,寻隐的语义理解能力够强,在应用描述中,开发者鼓励用户使用复杂的长句描述,且描述越精准,结果越可靠

 

笔者下载了国内版应用并进行一番简单的测试,先以同上的“猫猫在晒太阳”来搜索照片,这次出来的不是【无结果】,如愿收到了一系列猫猫图。其中关联度最高的一张确实是拍摄了小橘在公园晒太阳。接下来,笔者又以“一束橘色的花”进行搜索,也如愿搜到了匹配的照片。

 

搜索结果如图所示

 

不过,这套搜索功能也并非百试百灵,比如以“雪”为关键词的情况中,就有洁白的大片花朵和雾蒙蒙的天误入其中。

 

 

能力支撑:CLIP模型

 

如何让图片、文字两种截然不同的内容实现联结?开发者表示,寻隐App的设计灵感来源于CLIP模型。

 

图源:Open AI官网

 

CLIP(Contrastive Language-Image Pre-Training)是OpenAI于2021搭建的一个型,从CLIP英文全称名可以看出,这是一基于对比文本-图像对的预训练方法。

 

为了训练CLIP,Open AI使用了超过4亿对来自互联网的文本-图片数据。具体方法是,给定一张图像,让CLIP预测一组 32,768 个随机采样的文本中的哪一组文本可以和这张图像完成配对。

 

用通俗的方式来说,CLIP的关键能力在于文本和图片的信息转化,如果给到一段文字,CLIP可以根据描述给出最接近的图片。

 

根据Open AI给出的测试数据,对比多种识别模型,CLIP的表现能力相当突出。通过在图像集ImageNet中测试ResNet-50和CLIP,将两个模型的识别能力进行对比,最终 CLIP 的性能在多项能力测试中表现效果更佳。

 

图源:Open AI官网

 

或许很多研发企业都熟知这一模型的能力,但真正将CLIP封装在应用中并正式上架到应用商店的Mazzzystar是第一个“吃螃蟹的人”。由于无法从应用商店中获知真实姓名,这里我们以开发者的Twitter账号名称Mazzzystar代替称呼。

 

在Mazzzystar公布在GitHub中的开发日志中,为了在iOS设备上实时运行,考虑在性能和模型大小,最终他选择了ViT-B-32模型。考虑到应用需要断网使用,必须将模型完全存储在应用内,于是他使用coremltoolsText Encoder库将其导出到 CoreML 模型中。最后我们看到的版本中,寻隐App的大小是232M。

 

出海之觞:隐私保护

 

考虑到隐私问题,开发者坚持将寻隐做成了离线应用版本,为了不联网,开发者表示自己在应用中做了一些新的妥协和尝试,比如将应用原计划的内购模式改为付费。

 

虽然在隐私问题上,寻隐做了大量工作,试图打消用户的顾虑,但从应用商店的评论和开发者在应用商店中写下的公告来看,在实际上线到欧美市场的过程中,多数用户依然对寻隐的隐私问题提出质疑,其中国开发者的身份也是让这款产品备受争议的原因之一。

 

产品介绍中 开发者解释其产品如何保护隐私安全

 

说实话,作为一个技术小白,笔者在体验产品的过程中也难免感到“隐私可能泄露”的不安感。在建立“索引”的过程中,相册中的所有照片会逐一在等待界面中展示。尽管已经充分了解到寻隐处于离线运行状态,不存在泄露信息的可能,但看着照片一张张划过去,这个过程确实难免令人感到焦虑。当然,这只关乎于个人体验,在实际证明中,寻隐已经拿出了足够多的行动给予用户安全感。

 

就在今年7月,Mazzzystar做出了两个决定:1、取消寻隐的付费,将其转化为免费应用产品,开放给所有用户使用。2、为了进一步让用户安心,将应用设计中的所有代码全部公布在GitHub上开源

 

“有些用户不相信开发者不会侵犯他们的隐私,有些开发者发邮件询问我‘寻隐’的技术细节。我想,既然是免费的,为什么不把源代码也开源,所以我就这么做了。”在Twitter上,Mazzzystar这样解释他的决定。

 

图源:Twitter@Mazzzystar

 

经此之后,希望所有用户能够无负担地体验一款好的创意产品吧。

 

启示

 

除了文本搜索图片」,围绕庞大又难以整理的相册,开发者能做的事情其实还有很多。

 

此前,笔者曾在巡榜中发现一款同样切入相册整理需求的产品Faye。它的主要功能是将视频自动保存在云端将保存的内容发送到Fave收藏夹后,用户可以将它们从相机中删除以节省空间,它承诺永久保存用户的所有视频。

 

从排名来看,虽然Faye属于比较昙花一现的状态,但它曾经的火爆证明了需求的存在,等待出海企业进行挖掘。

 
最后,致敬每一位身体力行,将灵光一闪变成现实的开发者。

文章作者:四月

版权申明:内容仅供网友参考学习。如有侵权,请联系客服,扬帆出海欢迎行业优质稿件投稿。扬帆出海为您提供中国互联网出海权威资讯,提升出海认知;对接全球企业合作资源,构建企业本地化壁垒;10万+出海从业者社群,帮助打通行业人脉。 更多资讯关注扬帆出海官网:https://www.yfchuhai.com/

{{likeNum}}

好文章,需要你的鼓励

请前往扬帆出海小程序完成个人认证
认证通过后即可申请入驻
咨询/开通企业服务会员
请添加下方商务企业微信
企业服务会员
助力销售转化再上台阶
bd@yfchuhai.com
咨询/开通企业服务会员
请添加下方商务企业微信
企业服务会员
助力销售转化再上台阶
bd@yfchuhai.com
APP
小程序
微信公众号
微信小程序
扬帆出海APP
扬帆出海APP
微信
公众号
微信公众号
关注扬帆出海
专注服务互联网出海!
出海人
社群
微信公众号
扫码进群
与10万+出海人同行!