AI语音从“输出”到“输入”，资本在用千万美元押注什么？

2025-07-31万象ai

7月16日，语音输入创企WillowVoice宣布完成420万美元天使融资，由YC领投；而就在几天前，6月25日另一家语音输入创企WisprFlow也宣布完成了3000万美元A轮融资。

此前，我们一直在观察AI语音赛道，但能拿到融资的基本都是做语音合成，也就是“输出”。比如赛道头部的ElevenLabs，在今年1月份，完成了C轮2.5亿美元融资，估值达到30亿美元以上。

但最近的2笔融资，貌似在释放另一种信号，反向做“输入”的语音创企，正在获得资本的关注。

语音输入2012年就有，为什么还能拿到融资？

WillowVoice和WisprFlow（下文简称为Willow和Flow）专注ASR技术（自动语音识别），两款产品基本类似，都有点类似“语音输入法”，用户只需要按下电脑或手机上的特定按钮，就能直接将讲话的内容转录成文字。

乍听上去，这已经是我们在日常生活中习以为常的功能，比如，微信2019年就在iOS端推出了“语音转文字功能”，苹果更是在2012年的iOS6中就上线了最初版本的“语音听写”（VoiceDictation）功能，且ElevenLabs、OpenAI等AI时代的明星创企也都覆盖了语音转文字的场景。

语音作为输入，输出格式化文本的错词率（左），输出非格式化文本的错词率（右），注：错词率为百分数，例如OpenAI的Whisper在格式化文本的错词率为14.9%，数据越低意味着模型能力越强，本测试亦包含各模型在吵闹环境、强口音、带专业术语的语音等场景，测试结果发布时间：2025年2月｜图片来源：VoiceWriter.io

Formatted（格式化）：需要模型直接输出正确的格式，也就是说不仅词汇的识别正确，也需要正确输出大小写和标点符号。Unformatted（非格式化）：仅考虑词语本身的识别正确率

根据VoiceWriter.io的测试，除GoogleCloud的转录功能稍差之外，其他产品的差别不大，在非格式化文本场景下大部分产品的错词率都在10%以下，与未经专业转录训练的人类水平相当，但在需要考虑标点和大小写的格式化文本场景，语音转录模型表现稍差一些，所有产品的错词率平均增加了10%。

而根据Flow创始人TanayKothari在播客中的说法，虽然AI对非格式化文本转录时的WER已经很低了，但却没有意义，因为就算有产品能做到1%以下的错词率，仍意味着每几句话就有一个错词，用户仍无法完全信任AI。

而且由于口语和书面语有所差别，所以即使模型能够完全按照用户所说进行转录，用户也不会将输出文字直接作为消息发送或储存到笔记产品中，仍需要简化和改错。

在这一理念的指导下，Flow与传统语音转文字的区别是，追求“零编辑信息”，做法上，两款产品均是在“AI直接转录内容”和“输出内容”中间加了“文字处理”的步骤，给用户输出能够直接使用的文字。而这一步文字处理分三个层面，一是格式化文字输出，即正确断句、去语气词等；二是上下文的理解，比如能够自动纠正口误、识别情绪等；三则是语境识别，即在DM、邮件、笔记等不同的输入场景中，输出不同风格文字的能力。

而经过对Flow、Willow和OpenAIWhisper进行初步对比测试发现，OpenAIWhisper的输出仅停留在第一层，Flow、Willow能做到第二层，而第三层则基本都没有做到。

目标很美好，但现实达不到

从产品逻辑上看，Flow和Willow其实完成的是“口语输入”到“书面语输出”的流程，那么既然是以书面语为主，其使用场景也就更加偏向办公场景。

a16z的年终AI产品盘点中，ElevenLabs的首席设计师AmmaarReshi以及创业者BenTossell都曾经推荐过Flow，且从推荐内容来看，他们几乎是天天使用的｜图片来源：a16z

而由于语音输入相比键盘输入对周围的影响更大，没那么适合坐工位的普通打工人。所以，从Flow创始人的分享来看，他们最初瞄准的是接受大量信息、有输入提效需求，且大多有单独办公室或经常在外（非办公室）处理工作的硅谷VC/创业者/高管群体。

Flow官网上的典型用户分析｜图片来源：Flow官网

而在通过VC/创业者/高管进行初期裂变之后，Flow开始通过ProductHunt来触达更多有需求的用户，比如学生、代码开发者、创作者/作家、律师、咨询顾问等。与VC/创业者/高管群体一样，这部分用户也有需要处理大量文字或有长文本输入的需求，且工作地点普遍比较灵活，亦会经常在外处理文字。

鉴于“工作状态下的文本输入”及“非办公室”两个特点，我们设定了TodoList、邮件回复、会前备忘录三个场景，对Willow和Flow，及ChatGPT听写功能（Whisper模型驱动），进行对比测试。

测试1：TodoList场景

场景描述：在去往办公室的车上，一位Teamleader需要梳理当天的重要事项，并在笔记App中记录下来。

口语化内容：嗯…今天首先要更新主页面的图标，然后在三点半前发上线通知。第二，四点钟要与团队开复盘会。还有，把上周的日报发给John。第三，五点前，把用户反馈汇总文档整理了，最后，晚上七点前，把下周的排期发给产品。

输出要求：关键信息正确，代办事项自动分点呈现。

不同产品的输出：

评价：在这个场景中，三款产品均没有丢失时间/事项等核心信息，Flow和Willow都按照原文中的“首先/第二/第三/最后”等标识词进行了分段，看上去更像是TodoList，而在标点符号和格式上，Flow做得更好一些。

而OpenAI的Whisper总体表现最差，虽然加了标点，但没分段，还在最后加入了冗余文字。

测试2：含专业术语的备忘录场景

场景描述：在券商的财报点评会开始之前，用户作为券商分析师需要对财报的亮点进行简单总结，形成文字备忘录，并分享给团队其他成员。

口语化内容：“呃…我刚看了那个财报，XX这季度虽然同比是有增长的，但是环比是负的，然后它那个订阅收入占比在上升，主要是那个XX和XX的贡献吧，另外它跟阿里的那个可转债得看看了，就是是不是有摊薄风险的问题？我建议把重点放在产品结构和付费动能这块，营收增速还是偏保守。”

输出要求：关键信息正确，专业术语正确，语气偏正式。

不同产品的输出：

注：红色为出现错误的词汇，文字为AI生成，仅做测试用途，与现实无关

评价：在带一定专业术语的备忘录场景下，三款产品均在“摊薄风险”这个术语上发生了错误，Willow和Whisper也都出现了为数不少的其他错误，而当笔者手动在Flow中添加了“摊薄风险”这个词后，Flow仍没有正确输出，总体来讲，三款产品都没法胜任专业一些的场景，但相比之下Flow做的略好。

除此之外，三款产品均没有修正诸如“环比是负的”等，一些“口语化”表达，也没有进行逻辑梳理，笔者在输入时将“收入”拆分到了第一句和第三句来讲，三款产品均没有将同类内容合并到一起。

测试3：回复客户邮件场景

场景描述：在机场，用户需要回复客户的咨询邮件，提供建议。

口语化内容：您好，看到你们说想优化销售流程，我感觉其实你们现在的问题还挺典型的，就是前期线索进来之后没有特别系统的筛选机制吧，然后导致后面销售在跟进的时候效率挺低的——像这种情况，我们之前有几个客户也遇到过，一般会建议统一一下线索评分的标准，或者引入个比较轻量的CRM系统啥的也可以。我这两天再把我们之前做的一个案例给你整理一下，到时候你看看是不是有参考价值哈。

输出要求：自动分段、呈现邮件格式、文风正式。

不同产品的输出：

评价：Flow和Willow都按照邮件的格式将“你好”另起了一行，Flow在分段方面做得更好一些，三款产品都没有能很好地修改输入时的口语化表达，仅有Flow有将“到时候”改成了“届时”。整体来看，邮件的文风仍非常口语化，在发送之前需要用户手动修改。

体验下来，Flow和Willow质量虽然可接受，但距离其“零编辑”的目标，相差还是挺远的，在专业术语的识别、以及正式文风中，都出现了不达标的输出。笔者对英文转录也进行了测试，结果差不太多，也会出现转录出错的情况。

写在最后

虽然从测试结果看，Flow和Willow在专业术语和正式文风等场景中距离“零编辑”还有一定的差距，但根据各媒体的报道，Flow的用户粘性和付费率都相当高，截止目前，WisprFlow官宣用户规模月环比增长超50%，6个月活跃用户留存率达到80%，付费率高达19%，年收入（2024.7-2025.7）已经达到380万美元。

未能达成“零编辑”目标与用户付费之间，是Flow这类产品虽然还不能让用户完全不动手、但已经相较于之前提供了差异化的体验。

不少Reddit和ProductHunt上的用户表示，用Flow与ChatGPT交互或者进行VibeCoding，体验很好｜图片来源：Reddit

根据Reddit和ProductHunt上评论，在不是那么正式的输入场景下，Flow表现得比其他产品好很多，能够令人满意。比如有用户用Flow与Cursor进行自然语言交互（如上图）进行VibeCoding，在这个场景中，用户只需按mac键盘上的一个按键、就可以直接口聊，虽然在第3层针对于特定场景的书面语转化中，Flow还有所欠缺，但在前2层格式化与上下文理解，Flow表现明显强于OpenAI的Whisper为首的其他产品。

Flow的超高粘性和付费率还反映出，通过语音输入来减少人机交互的“摩擦”、实现提效，可能是一个可行方案。虽然Flow和Willow目前都没有做到在所有场景下“零编辑”的目标，但是随着大模型能力的进一步提升与数据的积累，未来大概率能够有很大改善。

而根据Flow创始人的说法，如果未来“语音输入”可以达到能让用户信任的程度，未来“语音输入”取代键盘，成为人机交互的新范式（语音操作系统）也就不远了，“现实提效+未来颠覆旧范式的可能性”可能才是VC们愿意真金白银投入语音输入的原因。