设计初衷:在Letstalk中引入批量转换语音功能的原因是什么?

随着2026年1月30日Letstalk v4.9.2版本的推出,普通用户首次获准使用「端侧语音识别引擎」。该版本支持在聊天窗口中批量选取最多50条语音,直接在本地转写成文字并生成具备审计功能的PDF文档。相较于以往必须逐条长按进行“转文字”操作,新版设计兼顾了合规追溯与处理效率:例如,调查记者处理线人提供的50段60秒语音时,仅需5分钟即可生成带时间戳的文字稿。由于整个过程完全在本地运行,未调用云端语音识别服务(ASR),因此符合GDPR第9条关于特殊类别数据“最小化外部传输”的规定。

然而,官方白皮书划定了明确的使用范围:该系统仅适用于单聊或群聊场景下的“普通语音消息”。对于加密Stories、使用变声3.0功能的语音,以及设置了“阅后即焚”的语音片段,系统在用户进行勾选操作时,会自动将这些选项置为不可用状态,从而防止用户将那些受限时销毁策略保护的内容意外保存为外部文件。换言之,能够进行转写处理的语音,其原始加密数据片段必定仍保留在服务器端;如果源文件因过期而被IPFS网络执行垃圾回收,相关的转写功能入口便会自动失效,以此规避因缺失源数据而产生的证据效力争议问题。

实践数据显示,在日语音消息超200条的高频DAO治理社群中,启用批量转写功能可将会议纪要的整理时长由平均3.5小时大幅缩减至20分钟。由于端侧处理机制避免占用上行带宽,用户即使在飞行途中也能进行离线转写,待落地后一键导出PDF,从而极大保障了远程协作流程的顺畅与连贯。

设计初衷:在Letstalk中引入批量转换语音功能的原因是什么?
设计初衷:在Letstalk中引入批量转换语音功能的原因是什么?

不同版本间的区别及迁移指南

在 v4.9.0 版本之前的操作方式为:逐条进行语音转写,然后手动将结果拼接在一起。

旧版应用中,用户需对每条内容单独长按选择“转文字”,随后手动将文本粘贴至备忘录。据实际使用经验:当批量处理超过10条记录时,iOS系统的键盘缓存极易出现异常,导致转写界面卡顿2至3秒;而Android系统虽无此卡顿问题,但在将文本粘贴至第三方编辑工具时,所有时间戳信息均会丢失,这显著增加了后续校对工作的负担。

版本v4.9.1中,“多选转写”功能已灰度发布,但不支持导出操作。

此版本在“设置”下的“实验室”选项中隐藏了一个功能开关。启用后,用户可在多选菜单中找到“转写为文字”选项,不过生成的文本仅能保留在聊天界面内,不支持导出功能。目前该功能仅推荐用于内部小范围测试,请勿直接发送给外部联系人。原因在于消息内容依然受端到端加密保护,若接收方未安装相同版本,他们将无法查看具体内容,仅能看到“此消息类型不支持”的提示占位符。

另外,v4.9.1版本的端侧模型大小仅为180MB,中文方言的识别召回率约为78%,不及正式版92%的水平。如果在灰度测试中发现转写结果里充斥着大量“[不明]”,升级至v4.9.2后不必手动重新配置。系统会在你初次进入聊天页面时自动执行“增量回写”操作,将置信度超过0.8的数据回填至原文,从而降低二次校对的工作量。

自 v4.9.2 版本开始,提供官方入口及 PDF 导出功能。

该版本已正式纳入稳定发布渠道,不再依赖实验室选项,并实现了 iOS、Android 及桌面端的同步推送。官方特意在更新说明中补充了注意事项:“若群聊启用了‘频道’功能,则仅主频道的语音消息支持批量选择”,此举旨在回应此前社区反映的因频道分散而容易漏选的问题。

操作指引:针对不同平台,提供直达功能的最短路径入口。

涵盖iOS与Android两大平台

  1. 打开想要操作的单聊对话或群聊,点击右上角的更多按钮(…),然后选择多选模式
  2. 请手动选择不超过50条语音内容(屏幕顶部将动态更新提示,显示当前已选数量及预估的转写耗时)。
  3. 在底部工具栏找到带有麦克风与文字组合图案的“AI转写”图标,点击它,随后在弹出的“端侧处理提示”窗口中点击确认即可。
  4. 待本地引擎处理完毕,页面会自动跳转至转写预览环节,您能在此手动修改错别字。
  5. 右上角“导出”→选择“PDF(含时间戳)”或“TXT(纯文字)”→系统自动存到Letstalk内置“Files/Export”目录,并弹出系统分享面板

提示:若发现导出按钮呈灰色不可点击状态,请确认应用是否已获得“本地文件”访问权限。对于运行 Android 13 或更高版本的设备,请依次进入“设置 > 应用 > Letstalk > 权限 > 文件与媒体”,并将权限从“仅允许特定音频”调整为“允许管理所有文件”。

适用于桌面操作系统:Windows、macOS 以及 Linux

目前桌面客户端仅提供“批量下载语音”与“调用本地转写”两段式方案,尚未集成端侧引擎。路径:多选语音→右键→“下载到本地”→默认放入Download/Letstalk_VoiceZip;随后需手动把wav列表拖入系统级语音识别(例如Win11 22H2自带的“语音转文本”面板)。经验性观察:连续30条以上时,CPU占用会冲到70%,建议分批次处理。

以macOS 14为例,首先利用Automator将wav文件批量转换为m4a格式,随后通过终端运行Whisper.cpp离线模型进行转写,最后使用Homebrew安装的Pandoc将结果导出为PDF。整个过程完全离线,尽管操作较移动端复杂,但能更好地满足企业合规团队对格式定制化的需求。

边界与权衡:哪些语音无法转换?

  • 对于阅后即焚类型的消息,在勾选操作时该选项会变灰不可用,同时系统会弹出“消息已销毁”的提示。
  • 加密Stories功能中,24小时自动销毁机制与PDF保存功能存在矛盾,因此官方直接移除了该入口
  • 针对变声3.0语音,由于声纹算法经过二次处理,端侧模型判断的置信度低于0.6,导致转写内容大量显示为“[不明]”;官方规定低置信度文本禁止导出,以避免错误信息留存。
  • 在频道与子频道的选择上,仅主频道的语音消息可被直接选中;如果管理员已将语音消息发送至子频道A,则你必须先将其转发至主频道,之后才能进行后续操作。

注意:生成的PDF文件默认包含用于后续审计对账的UID、群组名称及设备指纹哈希。若需将文件提交给外部律师事务所,请务必在预览界面右上角的“元数据”设置中取消勾选“包含身份指纹”,以防链上DID信息意外外泄。

基于实际测试的经验提示:在容纳500人的大型群组中启用“慢速模式”时,长语音会被强制切割为15秒以内的片段。如果一次性批量选择超过30条语音,本地模型可能因上下文信息中断而产生时间戳错乱。为解决此问题,建议在导出前于预览界面手动将同一发言人的相邻语音片段进行合并,从而确保证据链时间逻辑的连续性,避免出现时间倒跳或错位的现象。

可选:对接第三方归档机器人进行协作

尽管 Letstalk 官方并未设立 Bot Market,但一些企业通过 Open API 接入了自托管的合规归档机器人。实施这一方案的前提是,群组必须开启“允许外部归档”功能,具体操作路径为:群主进入设置,选择合规选项,进入外部 API 界面并生成只读 Token。在此机制下,机器人仅能获取语音的加密哈希值及转写后的文字内容,无法接触原始音频,这在一定程度上实现了“可审计但不支持回放”的平衡。根据实践经验观察,在 UTC 14:00 至 16:00 的高峰期,机器人的响应延迟约为 90 秒,而在非高峰时段,处理时间通常控制在 30 秒以内。

若你代表企业客户,建议把机器人限定为“仅读取主频道”,并在服务器端启用WORM(一次写入多次读取)存储,防止文本被事后篡改。配置完成后,机器人会自动把PDF推送到指定SFTP,路径规则:/letstalk/{群UID}/{YYYYMMDD}_voice_transcript.pdf。

以一家持牌交易所为例,其将在法兰克福私有云中部署机器人,利用Letstalk赋予的只读令牌每日获取合规群组的语音数据;这些数据在转写并通过SHA-256与PDF哈希进行比对后,会被存入WORM光盘库并保留七年,从而符合BaFin关于电子通讯记录至少保存七年的规定。由于全程无需将原始音频传输至境外,审计人员仅需借助哈希值即可核查数据的完整性。

遇到问题需要排查吗?当转写功能失效或导出过程停滞时,该如何处理?

现象 最可能原因 验证步骤 处置
界面上的“AI转写”按钮不见了 选择了加密动态故事或阅后即焚语音功能 返回至对话页面,检查语音消息左侧是否存在那个形似小火柴的标识 移除带有小火柴图标的语音文件,然后重新执行多选操作。
转写进度停滞在99% 由于电话通话中断,导致本地运行的模型缓存数据受损 依次进入系统设置中的电池选项,检查Letstalk是否遭到强制休眠 操作流程为:彻底关闭应用后重新打开,接着进行多选并执行转写,此时系统支持从断点处继续运行。
导出PDF的按钮呈现灰色状态 Low confidence text > 30% 预览页面顶端出现红色横幅,显示内容为“置信度较低” 请手动修改红色高亮区域,直到低置信度的比例低于30%为止。
分享界面中未提供发送邮件的功能 在iOS 16及更高版本系统中,尚未配置默认的电子邮件应用 依次点击系统设置,进入邮件选项,设定默认邮件应用,然后挑选指定的应用程序 重新在Letstalk中进行导出操作,分享面板里便会显示邮件图标

功能适用与不适用的具体场景对照表

高匹配场景

  • 在DAO理事会的每周例会上,20位成员各发表3段语音,系统可批量将这些语音转写为文字并自动生成会议纪要,同时通过UID自动关联身份NFT,省去了人工核对名单的步骤。
  • 医疗合规随访流程:医生通过HIPAA加密通道收集患者语音自述,转写的PDF文件归档至EMR系统,而原始音频保留在Lettalk保险柜中,从而符合“数据可追溯且不流出系统”的要求。
  • 针对记者与线人的采访内容,语音文件保留在应用内部,而文本记录则导出至律所证据库;通过确保哈希值的一致性并接受第三方验证,可以有效避免关于“断章取义”的争议。

低匹配场景

  • 当群成员超过50人且消息频繁时,系统会强制分批处理,导致操作成本呈指数级增长,因此建议改用合规机器人进行异步拉取。
  • 需要多语言混合转写:端侧模型目前仅支持中英粤,若群聊夹杂日语/韩语,整段会被标为[不明],后期人工校对反更费时
  • 在面临高强度对抗取证时,若对方采用声纹比对技术,尽管转写文本能掩盖声纹特征,但PDF中保留的UID哈希值仍可反向追溯至链上身份,从而引入新的安全漏洞。

实际测试表明,在处理东南亚多语言群组时,管理员通常先利用子频道按语言隔离内容,随后分批次进行转录,最后再整合为PDF文档。尽管操作步骤较多,但此举能将识别错误率控制在5%以内,其效率远超一次性全选全转的方式。

低匹配场景
低匹配场景

最佳实践速查表

  1. 在进行语音转写之前,请先核实群组设置中的消息保存时长是否满足7天或以上,以免原始语音数据在转写完成前意外丢失。
  2. 为了降低隐私泄露的风险,在导出数据之前,请先在预览页面将敏感的真人姓名批量替换为“[A]”、“[B]”等代号。
  3. 将 PDF 文件及其对应的源语音哈希值一同上传至 WORM(一次写入多次读取)存储介质,以构建包含“文本内容与数字指纹”的双重证据链条。
  4. 建议定期清理Letstalk内置的Export目录,以防旧文件被同步备份至云端。iOS用户可前往“设置”>“Apple ID”>“iCloud”>“管理存储空间”>“备份”,并取消勾选Letstalk以关闭备份。
  5. 如需向监管机构提交数据,请关闭“包含身份指纹”选项,同时提供UID与真实身份的映射表,并通过独立的加密通道传输,以避免DID哈希值直接泄露。

后续发展趋势及版本规划展望

根据官方Discord 2月测试频道透露,v4.10有望把端侧模型升级到Whisper v3-Small,支持中日韩离线识别,同时开放“转写后自动摘要”按钮,由LT-GPT在本地生成200字要点。若成真,大群语音+自动摘要将直接替代传统会议纪要工具。但社区也担忧模型体积会从现在的370MB膨胀到1.1GB,对128GB入门机型并不友好;官方回应称会采用“按需下载”切片,首次使用需等待3-5分钟后台拉取。

2月20日AMA中提到的另一项功能是“语音哈希上链”。该技术借助Polygon zkEVM,将每条语音的Keccak-256哈希值记录到区块链上,并利用Layer2共识机制确保时间戳的真实性,从而为未来的司法取证提供不可篡改的证据锚点。此功能处于默认关闭状态,用户需前往“设置→合规→链上指纹”手动启用。每次执行上链操作需花费约0.0003 MATIC(约等于0.0007美元)。虽然在严格合规要求下这一成本微乎其微,但官方明确指出“一旦哈希上链便不可逆且无法删除”,因此普通用户群体没有必要盲目跟随开启。

总结:用一句话概括整个操作流程

处理流程为:选取50条以内的语音,通过AI转录、人工校对后导出PDF。所有步骤均在本地完成,绝不上传云端。需注意,阅后即焚、变声处理或子频道中的语音将无法转换,系统会自动过滤,请勿尝试。只要清楚这些限制,你就能在Letstalk中平衡好量子级加密的安全性与合规审计的文本需求。

常见问题

经过文字转录处理并生成PDF格式的文件,具备在法庭上作为证据的法律效力吗?

实务观察显示,欧盟一些律师事务所已将包含UID哈希和时间戳的PDF文件作为初步电子证据予以接纳,但为了确保证据完整性、防止内容被篡改,还必须补充原始语音文件的哈希值以及链上的分布式身份(DID)对照表。此外,强烈建议一并导出TXT文本格式,以便法院的文本比对系统能够直接解析和比对。

在设备上运行模型具体会耗电多少?

实际测试显示,iPhone 13 Pro 在连续处理 50 条时长为 60 秒的语音转写任务时,电量消耗约为 4%,机身温度上升了 3℃;而在搭载骁龙 8+ Gen1 处理器的安卓设备上,耗电量约为 5%。如果启用低电量模式,虽然转写时间会增加 20%,但能有效改善设备发热问题。

是否可以将转写工作转移至云端处理,从而缩短本地运行时间?

官方已正式关停云端ASR服务,市面上任何提供“上传转写”功能的按钮均来自第三方破解版本,伴随严重的数据泄露隐患。面对时间紧迫的场景,推荐使用桌面端的两步流程,通过调用本地GPU加速Whisper模型,可实现2.5倍的处理速度提升。

如果在导出PDF的过程中遇到“存储空间不足”的报错,该如何解决?

Letstalk在语音转文字时会产生临时缓存,大约50条语音会占用600MB空间。Android用户可通过「设置→存储→清理缓存」来释放内存,或将导出目录调整至外置SD卡;而iOS用户请务必保证设备剩余存储空间至少为2GB,以防止iCloud同步进程占用缓存空间。

怎样确保转写出的文本与原始音频内容保持相符?

点击预览页右上角的“验证”按钮即可生成包含每条语音哈希值、转写文本哈希值及时间戳的 SHA-256 对照表。将该对照表与 PDF 文件一同存入 WORM 存储设备,后续可通过第三方工具重新计算哈希值以验证数据完整性,确保文件未被篡改。

风险与边界

1. 端侧模型仅支持中英粤,混入其他语种会导致置信度骤降,不可强行导出。

2. 频道子频道语音需手动转发到主频道,否则无法被批量选中,操作遗漏风险高。

3. 链上哈希一旦写入Polygon即永久公开,含UID哈希可能反向推导出链上身份,普通社群无需开启。