语音AI公司Speechify发布原生Windows应用,在系统层面提供跨应用语音听写,并支持朗读网页、文档和PDF等内容。新应用面向Copilot+ PC以及配备英特尔或AMD GPU的Windows 11设备,在本地完成语音处理,无需将音频上传云端,用户也可以在设置中切换为云端模型或在使用过程中按需调整处理方式。

应用在本地同时运行三类模型:用于朗读的神经网络文本转语音模型、用于实时检测用户是否在说话的语音活动检测模型,以及基于Whisper的转录模型。VITS Neural模型提供七档语速调节,适配不同阅读习惯。语音活动检测部分采用Silero开源模型,用于识别用户何时开始或停止说话,以提升实时听写和转录的连贯性与准确性。
Speechify方面称,其全球用户规模已超过5000万。创始人兼首席执行官Cliff Weitzman表示,Windows用户数量庞大,公司希望通过这款应用降低阅读和写作门槛,让不同设备和工作方式下的用户都能以语音完成输入与阅读。他同时看好企业市场,称此前已有大量职场用户主动要求在PC上使用Speechify,原生Windows客户端有助于满足这部分需求。
今年2月,Speechify上线类似Granola的会议转录功能,可在浏览器环境中转录并总结线上会议,但当时仅覆盖基于浏览器的会议场景。随着跨平台原生应用逐步完善,公司计划将会议转录能力迁移到各平台本地客户端,使用户在不同会议软件和浏览器窗口中,都能通过系统层面的录音与转录完成会议记录。
在此之前,Speechify长期聚焦文本转语音场景,主要用于朗读文章和电子邮件,或将文档内容转换为类似播客的音频。近期产品路线开始向“全栈语音应用”转向,陆续加入语音听写、会议转录和语音助手等功能,试图覆盖从阅读、输入到智能助理交互的完整语音使用链路。