跳至主要内容

Coqui TTS一个基于深度学习的文本转语音开源库,支持docker快速部署和API调用

 

一、简介

  • Coqui TTS 是一个基于深度学习的文本转语音库
  • 提供几十种语言的TTS预处理模型,包括中文
  • 支持pip一键安装和docker一键部署
  • 开源地址:https://github.com/idiap/coqui-ai-TTS

二、安装启动

启动版本选择

  1. cpu版本

    • docker-compose.yml配置文件内容如下
      version: '3'
      services:
        tts-cpu:
          image: ghcr.io/coqui-ai/tts-cpu
          container_name: tts-cpu
          restart: always
          ports:
              - 5002:5002
          entrypoint: ["python3"]
          command: ["-u", "TTS/server/server.py", "--model_name", "tts_models/zh-CN/baker/tacotron2-DDC-GST"]
          volumes:
              - ./local:/root/.local #启动后,模型文件会下载到这个目录
  2. gpu版本

    • 运行主机需要安装“NVIDIA驱动程序”和“NVIDIA Container Toolkit”(自行安装,不做赘述)
    • docker-compose.yml配置文件内容如下
      version: '3'
      services:
        tts:
          image: ghcr.io/coqui-ai/tts
          container_name: tts
          restart: always
          ports:
              - 5002:5002
          entrypoint: ["python3"]
          command: ["-u", "TTS/server/server.py", "--model_name", "tts_models/zh-CN/baker/tacotron2-DDC-GST", "--use_cuda", "true"]
          volumes:
              - ./local:/root/.local #启动后,模型文件会下载到这个目录
          deploy:
            resources:
              reservations:
                devices:
                  - capabilities: [gpu]

运行启动

直接运行下面命令即可

docker-compose up -d

注意,初次运行需要下载模型,需要耐心等待,输入下面命令查看运行日志

docker-compose logs -f

三、访问使用

使用页面

使用接口

  • 提供接口:GET http://127.0.0.1:5002/api/tts

  • 参数设置:

    参数名称说明
    text要生成语音的文本,结尾一定要有标点符号,不然音频会抽风
    style_wav调整语音风格,格式:{"0": 0.1}
    其他参数...不做介绍,貌似对中文TTS不生效
  • 请求下示例:

  • 示例音频展示(参考:https://blog.luler.top/d/9

四、总结

  • 存在很多问题:
    • 目前只发现一个中文预处理模型,且只有女声
    • 中文配音质量一般,有待提升
    • 长文本自动中断
    • 中英混搭配音卡壳
  • 目前只适合拿来学习,个人使用,不适合用于生产



评论

此博客中的热门博文

电脑里的AI帮手:Open Interpreter智能助手食用指南

一、简介 interpreter是一个使用python开发的命令行工具,可以让你在终端中使用类似AI对话的方式,只需简单输入指令要求,即可自动编写程序、执行代码,实现各种自动化操作 interpreter有自动检测输出结果、自动错误修复功能,保证指令执行的可靠运行 具有权限控制与执行确认机制,确保敏感命令不会立即执行(默认开启,但可以关闭) 支持接入各种模型,操作简单,一行命令即可唤起 二、安装 确保本地安装有python、pip等环境 一键安装 pip install open -interpreter 安装完成,查看命令是否可用,运行interpreter -h输出如下: $ interpreter -h 用法: interpreter [选项] Open Interpreter(开放解释器) 选项: -h, --help 显示帮助信息并退出 -p PROFILE, --profile PROFILE 配置文件名。运行` --profiles`可打开配置目录 -ci CUSTOM_INSTRUCTIONS, --custom_instructions CUSTOM_INSTRUCTIONS 语言模型的自定义指令。会追加到系统消息中 -sm SYSTEM_MESSAGE, --system_message SYSTEM_MESSAGE (不建议修改)语言模型的基础提示词 -y, --auto_run 自动运行生成的代码 -nhl, --no_highlight_active_line 关闭代码块中当前行的语法高亮 -v, --verbose 打印详细日志 -m MODEL, --model MODEL 使用的语言模型 -t TEMPERATURE, --temperature TEMPERATURE 语言模型的可选温度参数 -lsv, --llm_supports_v...

认识python全栈框架reflex:快速打造工具类网站、模型调用web应用

  一、简介 纯Python编写的,高性能、可自定义的 Web 应用开发框架 网页开发内置组件生态完整,灵活使用、快速接入、快速部署 支持路由页面,可以开发复杂系统、企业级系统,这方面优于gradio、streamlit等全栈框架 开源地址: https://github.com/reflex-dev/reflex ,官网地址: https://reflex.dev 二、基础安装使用 提前准备好Python 3.10+软件环境(不做赘述) 使用pip安装reflex 复制 pip install reflex 初始化项目代码 复制 mkdir reflex_test cd reflex_test reflex init 直接运行 复制 reflex run 运行过程 访问默认页面: http://localhost:3000/ 修改默认代码,页面可以自动重载更新页面 可以参考官方组件库、模板库,直接复制相关代码黏贴即可直接使用 参考官方组件使用与说明: https://reflex.dev/docs/library/ 三、快速接入大模型文生图简单示例 参考代码: https://github.com/luler/reflex_ai_fast 实现功能:旨在通过便捷的操作页面,迅速接入和体验大模型生图功能 安装配置使用: 拉取代码 复制 git clone https://github.com/luler/reflex_ai_fast cd reflex_ai_fast 新增编辑.env,输入文生图大模型配置,内容如下:(注意:需要支持openai兼容的文生图接口https://platform.openai.com/docs/guides/text-generation,如果不支持,需要自行调整代码,也很简单) 复制 OPENAI_BASE_URL =https://xxx/v1 OPENAI_API_KEY =sk-xxx 打包并导出前端代码 复制 API_URL =http:// 127.0 . 0.1 : 8080 reflex export --frontend- on ly docker-compose一键运行(提前部署好docker、docker-compose环境) 复制 docker-compose up -d 访问页面: http...

解锁ChatGPT-4o文生图潜力:精选提示词收集整理更新中

  示例一 提示词 复制 按照下面元素与描述生成相应的图片: - 人物:一个年轻人,健壮有力,手拿着登山杖,站在一块巨大的岩石上 - 背景:岩石下面是一片丛林,远处是广袤的大海,非常壮观好看,在合适的位置显示“一起去徒步” - 风格:整体是插画风格,字体是手写风格 生成图片效果 示例二 提示词(把图片转成“吉卜力”风格) 复制 convert this photo to studio ghibli style anime,Keep the size of the original image 生成图片效果 原图 结果图 | 示例三 提示词 复制 将场景中的角色转化为 3 D Q 版风格,同时保持原本的场景布置和服装造型不变。比例 1 : 1 生成图片效果 原图 结果图 示例四 提示词 复制 Create concise, visually structured notes on the topic '{{topic}}'. Notes must fit clearly within a {{orientation}} layout (horizontal/vertical), featuring: - Moderate Font Size: Comfortable readability. - Clear Structure: - Main points highlighted with "background colors" or "wavy underlines~". - Regular notes in standard ink. - Emphasis notes in a different ink color. - Illustrations: - Include relevant sketches or hand-drawn style illustrations. - Allow fountain pen-style doodles or annotations directly on illustrations. - Annotations: - Simulate notes, correcti...