即刻语音转文字：实时转录的开源利器- 大数跨境

GitHub每日推文

2025-03-11

在这个注重效率与速度的时代，能够快速、准确地将语音转化为文本的工具，成为了提高生产力的重要手段。今天，我们介绍的开源项目——RealtimeSTT，正是这样一款强大而高效的语音转文字（STT）库。无论是用于语音助手，还是需要快速精准的实时转录场景，RealtimeSTT 都能轻松应对。

RealtimeSTT：快速上手，实时转录

RealtimeSTT 是一个简单易用、低延迟的语音转文字库，专为实时应用而设计。该项目的最大特点在于其高效性和低延迟性，能够即时将语音识别为文本，同时还支持先进的语音活动检测和唤醒词激活功能。

该库主要适用于以下场景：

语音助手：通过快速精准的语音输入，让语音助手变得更加智能。
快速实时转录需求的应用：如会议记录、实时字幕生成等。

核心功能

RealtimeSTT 通过监听麦克风，将语音实时转录为文字。其功能亮点包括：

语音活动检测：自动识别语音开始和结束，很好地过滤掉背景噪声。
实时转录：在你说话的同时即刻转录。
唤醒词激活：可根据设定的唤醒词启动转录。

这些功能简单而强大，使得 RealtimeSTT 成为开发实时音频应用的理想选择。

快速示例

RealtimeSTT 提供了一些简单易行的代码示例，让新手快速入门。

打印实时转录文本：

from RealtimeSTT import AudioToTextRecorder

def process_text(text):
    print(text)

if __name__ == '__main__':
    print("Wait until it says 'speak now'")
    recorder = AudioToTextRecorder()

    while True:
        recorder.text(process_text)

将转录结果直接输入文本框：

from RealtimeSTT import AudioToTextRecorder
import pyautogui

def process_text(text):
    pyautogui.typewrite(text + " ")

if __name__ == '__main__':
    print("Wait until it says 'speak now'")
    recorder = AudioToTextRecorder()

    while True:
        recorder.text(process_text)

技术组成

RealtimeSTT 基于以下技术栈：

语音活动检测：

WebRTCVAD^[1]：初始语音活动检测。
SileroVAD^[2]：更准确的语音检测。

语音转文字：

Faster_Whisper^[3]：即时（GPU 加速）转录。

唤醒词检测：

Porcupine^[4] 或 OpenWakeWord^[5]：唤醒词检测。

安装与升级

你可以通过简单的命令安装 RealtimeSTT：

pip install RealtimeSTT

入门即如此简单！同时，该项目也提供了 Linux 和 MacOS 系统下的特定安装指导，以及推荐的 CUDA GPU 加速支持。

使用指南

RealtimeSTT 可用于多种场景，包括手动录音、自动录音以及唤醒词监听等。同时，开发者可以为不同事件设置回调函数，以实现更灵活的操作控制。

唤醒词监听与自动录音：

使用唤醒词启动录音，并自动进行转录：

recorder = AudioToTextRecorder(wake_words="jarvis")

print('Say "Jarvis" then speak.')
print(recorder.text())

通过这种方式，用户无需手动启动或停止录音，提升了用户体验和交互便捷性。

附加功能与配置

RealtimeSTT 还有许多高级参数设置，比如实时转录的模型类型、每次检测后的动作回调、文件输出控制等，帮助用户定制符合自己应用场景的解决方案。

如果你的系统中存在 NVIDIA GPU，建议使用 CUDA 加速，以获得更好的实时响应能力。此外，RealtimeSTT 还提供了丰富的 API 接口文档和 FAQ 帮助，让用户能够顺利配置和使用本软件库。

类似项目推荐

与 RealtimeSTT 相辅相成的是RealtimeTTS^[6]，这是一个文本转语音的开源库。配合使用 RealtimeSTT 和 RealtimeTTS，可构建丰富而强大的声音交互系统，提供从语音识别到音声合成的一体化解决方案。

RealtimeSTT 中的这些开创性功能和应用场景，拓展了语音技术的边界，也预示着更多创新应用的可能。探索这款工具，感受从语音到文字的无缝转换，让你的项目"声"动起来！

参考资料

[1]

WebRTCVAD: https://github.com/wiseman/py-webrtcvad

[2]

SileroVAD: https://github.com/snakers4/silero-vad

[3]

Faster_Whisper: https://github.com/guillaumekln/faster-whisper

[4]

Porcupine: https://github.com/Picovoice/porcupine

[5]

OpenWakeWord: https://github.com/dscripka/openWakeWord

[6]

RealtimeTTS: https://github.com/KoljaB/RealtimeTTS

【声明】内容源于网络

GitHub每日推文

一位热爱编程与开源项目的开发者。每天我都会精选 GitHub 上的优质项目和最新动态，通过简短精炼的推文分享给大家，帮助你迅速了解技术前沿。关注我，获取每日 GitHub 精选，提升开发技能，紧跟技术潮流！

内容 448

粉丝 0

GitHub每日推文一位热爱编程与开源项目的开发者。每天我都会精选 GitHub 上的优质项目和最新动态，通过简短精炼的推文分享给大家，帮助你迅速了解技术前沿。关注我，获取每日 GitHub 精选，提升开发技能，紧跟技术潮流！

总阅读4.4k

粉丝0

内容448

即刻语音转文字：实时转录的开源利器