Text-to-Speech Chirp 3: Las voces en HD representan la última generación de la tecnología de texto a voz. Gracias a nuestros LLM de vanguardia, estas voces ofrecen un nivel de realismo y resonancia emocional sin precedentes.
![]() |
![]() |
Opciones de voz
Hay una variedad de opciones de voz disponibles, cada una con características distintas:
Nombre | Género | Demostración |
---|---|---|
Aoede | Mujer | |
Puck | Hombre | |
Caronte | Hombre | |
Kore | Mujer | |
Fenrir | Hombre | |
Leda | Mujer | |
Orus | Hombre | |
Zephyr | Mujer | |
Achird | Hombre | |
Algenib | Hombre | |
Algieba | Hombre | |
Alnilam | Hombre | |
Autonoe | Mujer | |
Callirrhoe | Mujer | |
Despina | Mujer | |
Encélado | Hombre | |
Erinome | Mujer | |
Gacrux | Mujer | |
Jápeto | Hombre | |
Laomedea | Mujer | |
Pulcherrima | Mujer | |
Rasalgethi | Hombre | |
Sadachbia | Hombre | |
Sadaltager | Hombre | |
Schedar | Hombre | |
Sulafat | Mujer | |
Umbriel | Hombre | |
Vindemiatrix | Mujer | |
Zubenelgenubi | Hombre | |
Achernar | Mujer |
Disponibilidad de idiomas
Chirp 3: Las voces en HD son compatibles con los siguientes idiomas:
Idioma | Código BCP-47 |
---|---|
Inglés (Estados Unidos) | en-US |
inglés (Australia) | en-AU |
Inglés (Reino Unido) | en-GB |
Inglés (India) | en-IN |
Español (Estados Unidos) | es-US |
Alemán (Alemania) | de-DE |
Francés (Francia) | fr-FR |
Hindi (India) | hi-IN |
Portugués (Brasil) | pt-BR |
Árabe (genérico) | ar-XA |
Español (España) | es-ES |
Francés (Canadá) | fr-CA |
Indonesio (Indonesia) | id-ID |
Italiano (Italia) | it-IT |
Japonés (Japón) | ja-JP |
Turco (Turquía) | tr-TR |
Vietnamita (Vietnam) | vi-VN |
Bengalí (India) | bn-IN |
Guyaratí (India) | gu-IN |
Canarés (India) | kn-IN |
Malabar (India) | ml-IN |
Maratí (India) | mr-IN |
Tamil (India) | ta-IN |
Telugu (India) | te-IN |
Holandés (Bélgica) | nl-BE |
Holandés (Países Bajos) | nl-NL |
Coreano (Corea del Sur) | ko-KR |
Chino mandarín (China) | cmn-CN |
Polaco (Polonia) | pl-PL |
Ruso (Rusia) | ru-RU |
Suajili (Kenia) | sw-KE |
Tailandés (Tailandia) | th-TH |
Urdu (India) | ur-IN |
Ucraniano (Ucrania) | uk-UA |
Disponibilidad regional
Chirp 3: Las voces en HD están disponibles en las siguientes Google Cloud regiones, respectivamente:
Google Cloud Zona | Preparación para el lanzamiento |
---|---|
global |
DG |
us |
DG |
eu |
DG |
asia-southeast1 |
DG |
Formatos de salida compatibles
El formato de respuesta predeterminado es LINEAR16, pero también se admiten los siguientes:
Método de API | Formato |
---|---|
streaming |
ALAW, MULAW, OGG_OPUS y PCM |
batch |
ALAW, MULAW, MP3, OGG_OPUS y PCM |
Usa Chirp 3: Voces en HD
Descubre cómo usar Chirp 3: Voces en HD para sintetizar voz.
Realiza una solicitud de síntesis de voz de transmisión continua
Python
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Text-to-Speech, consulta las bibliotecas cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API de Text-to-Speech Python.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Realiza una solicitud de síntesis de voz en línea
Python
Para obtener información sobre cómo instalar y usar la biblioteca cliente de Text-to-Speech, consulta las bibliotecas cliente de Text-to-Speech. Para obtener más información, consulta la documentación de referencia de la API de Text-to-Speech Python.
Para autenticarte en Text-to-Speech, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.
Sugerencias para la escritura de secuencias de comandos y las instrucciones
Para crear audio atractivo y que suene natural a partir de texto, es necesario comprender los matices del lenguaje hablado y traducirlos a formato de guion. Las siguientes sugerencias te ayudarán a crear guiones que suenen auténticos y capten el tono elegido.
Comprende el objetivo: habla natural
El objetivo principal es hacer que la voz sintetizada suene lo más cerca posible de una persona que habla de forma natural. Esto incluye lo siguiente:
- Imitación del ritmo natural: Indica la rapidez o lentitud con la que habla una persona.
- Crear un flujo fluido: Garantiza transiciones fluidas entre oraciones y frases.
- Agregar pausas realistas: Incorpora pausas para dar énfasis y claridad.
- Capturar el tono informal: Hacer que el audio suene como una conversación real.
Técnicas clave para una voz natural
Puntuación para el ritmo y el flujo
- Puntos (.): Indican una pausa más larga. Úsalos para separar pensamientos completos y crear límites claros de oraciones.
- Comas (,): Indican pausas más cortas dentro de las oraciones. Úsalos para separar cláusulas, enumerar elementos o introducir breves pausas para respirar.
- Paréntesis (...): Representan una pausa más larga y deliberada. Pueden indicar pensamientos finales, vacilación o una pausa dramática.
- Ejemplo: "Y luego… sucedió".
- Guiones (-): Se pueden usar para indicar una pausa breve o una interrupción repentina en el pensamiento.
- Ejemplo: "Quería decirte algo, pero no pude".
Incorpora pausas y disfluencias
- Pausas estratégicas: Usa puntos suspensivos, comas o guiones para crear pausas en lugares donde un orador humano se detendría de forma natural para respirar o enfatizar.
- Disfluencias (interjecciones): Si bien algunos modelos de Text-to-Speech controlan las disfluencias automáticamente, es fundamental comprender su función. Agregan autenticidad y hacen que el habla suene menos robótica. Incluso si el modelo los agrega, estar al tanto de dónde ocurrirían de forma natural en el habla humana te ayuda a comprender el flujo general de tu guion.
Experimentación e iteración
- Re-síntesis: No tengas miedo de volver a sintetizar el mismo mensaje con la misma voz varias veces. Los pequeños ajustes en la puntuación, el espaciado o la elección de palabras pueden afectar de manera significativa el audio final.
- Escucha de forma crítica: Presta mucha atención al ritmo, el flujo y el tono general del audio sintetizado. Identifica las áreas que suenan poco naturales y ajusta el guion según corresponda.
- Variación de voz: Si el sistema lo permite, intenta usar diferentes voces para ver cuál se adapta mejor a tu guion y al tono que elegiste.
Sugerencias prácticas para la escritura de secuencias de comandos
- Leer en voz alta: Antes de sintetizar, lee el guion en voz alta. Esto te ayudará a identificar frases incómodas, pausas poco naturales y áreas que necesitan ajustes.
- Escribe de forma coloquial: Usa abreviaturas (p.ej., "it's", "we're") y lenguaje informal para que el guion suene más natural.
- Ten en cuenta el contexto: El tono y el ritmo del guion deben coincidir con el contexto del audio. Una presentación formal requerirá un enfoque diferente al de una conversación informal.
- Divide oraciones complejas: Los motores de TTS pueden tener dificultades para procesar oraciones largas y complicadas. Desglosarlas en oraciones más cortas y fáciles de manejar
Mejoras en el guion de muestra
Guion original (robótico): “El producto ya está disponible. Tenemos funciones nuevas. Es muy emocionante".
Guion mejorado (natural): “El producto ya está disponible… y agregamos algunas funciones nuevas y emocionantes. Es muy emocionante".
Guion original (robótico): "Este es un mensaje de confirmación automático. Se procesó tu reserva. Los siguientes detalles se relacionan con tu próxima estadía. El número de reserva es 12345. El nombre registrado del huésped es Anthony Vásquez. La fecha de llegada es el 14 de marzo. La fecha de salida es el 16 de marzo. El tipo de habitación es suite de lujo. La cantidad de huéspedes es 1. La hora de entrada es a las 3 p.m. La hora de salida es a las 11 a.m. Ten en cuenta que la política de cancelación requiere una notificación 48 horas antes de la llegada. Si no lo haces dentro de este plazo, se te cobrará una noche de estadía. Las comodidades adicionales que se incluyen en tu reserva son: Wi-Fi gratuito, acceso al gimnasio y desayuno gratuito. Si tienes alguna consulta, comunícate directamente con el hotel al 855-555-6689. Gracias por elegir nuestro hotel".
Guion mejorado (natural): "Hola Anthony Vásquez. Nos complace confirmar tu reserva con nosotros. Ya está todo listo para tu estadía del 14 al 16 de marzo en nuestra hermosa suite deluxe. Es para 1 huésped. En caso de que lo necesites, tu número de confirmación es 12345.
Solo para recordarte que el registro es a las 3 p.m. y la salida a las 11 a.m.
Ten en cuenta nuestra política de cancelación. Si necesitas cancelar, avísanos al menos 48 horas antes de tu llegada. De lo contrario, se te cobrará la estadía por una noche.
Para que tu estadía sea aún mejor, tendrás Wi-Fi gratuito, acceso a nuestro gimnasio y un delicioso desayuno gratuito todas las mañanas.
Si tienes alguna pregunta, no dudes en llamarnos al 855-555-6689. ¡Esperamos que disfrutes de tu estadía en el hotel!"
Explicación de los cambios:
- Los puntos suspensivos (...) crean una pausa para enfatizar.
- “Y hemos” usa una contracción para lograr un tono más informal.
- “Es, bueno, es muy emocionante” agrega una pequeña cantidad de disfluencia y énfasis.
- El recordatorio amistoso “¿De acuerdo?” suaviza el tono.
Si sigues estas pautas, puedes crear guiones de texto a audio que suenen naturales, atractivos y humanos. Recuerda que la práctica y la experimentación son clave para dominar esta habilidad.
Chirp 3: Controles por voz en HD
Las funciones de control por voz son específicas para la síntesis de voz HD. Ten en cuenta que Chirp 3: Las voces en HD no admiten SSML, pero puedes administrar el control de velocidad, el control de pausa y las pronunciaciones personalizadas a través de las opciones de control por voz de Chirp 3: HD.
Control de ritmo
Puedes ajustar la velocidad del audio generado con el parámetro de ritmo. El parámetro de ritmo te permite ralentizar o acelerar la voz, con valores que van desde 0.25x (muy lento) hasta 2x (muy rápido). Para establecer el ritmo, usa el parámetro speaking_rate
en tu solicitud. Elige un valor entre 0.25 y 2.0. Los valores inferiores a 1.0 ralentizan la voz, y los valores superiores a 1.0 la aceleran. Un valor de 1.0 indica un ritmo no ajustado.
Ejemplo de SynthesizeSpeechRequest con control de ritmo:
{
"audio_config": {
"audio_encoding": "LINEAR16",
"speaking_rate": 2.0,
},
"input": {
"text": "Once upon a time, there was a cute cat. He was so cute that he got lots of treats.",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Ejemplo de StreamingSynthesizeConfig con control de ritmo:
{
"streaming_audio_config": {
"audio_encoding": "LINEAR16",
"speaking_rate": 2.0,
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Muestras de audio de control de ritmo:
Velocidad de habla | Salida |
---|---|
0.5 | |
1.0 | |
2.0 |
Control de pausa
Para insertar pausas en el habla generada por IA, incorpora etiquetas especiales directamente en el texto con el campo de entrada markup
. Ten en cuenta que las etiquetas de pausa solo funcionarán en el campo markup
y no en el campo text
.
Estas etiquetas le indican a la IA que cree silencios, pero la duración precisa de estas pausas no es fija. La IA ajusta la duración según el contexto, al igual que la voz humana natural varía según el hablante, la ubicación y la estructura de la oración. Las etiquetas de pausa disponibles son [pause short]
, [pause long]
y [pause]
. Si quieres conocer métodos alternativos para crear pausas sin usar etiquetas de marcado, consulta nuestros lineamientos para la creación y redacción de instrucciones.
En ocasiones, el modelo de IA puede ignorar las etiquetas de pausa, especialmente si se colocan en posiciones poco naturales en el texto. Puedes combinar varias etiquetas de pausa para obtener silencios más largos, pero el uso excesivo puede generar problemas.
Ejemplo de SynthesizeSpeechRequest con control de pausa:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"markup": "Let me take a look, [pause long] yes, I see it.",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Ejemplo de StreamingSynthesisInput con control de pausa:
{
"markup": "Let me take a look, [pause long] yes, I see it.",
}
Pausa muestras de audio de control:
Entrada de Markup | Salida |
---|---|
"Déjame ver, sí, lo veo". | |
"Déjame echar un vistazo, [pausa larga] sí, lo veo". |
Pronunciaciones personalizadas
Puedes especificar pronunciaciones personalizadas con representaciones fonéticas IPA o X-SAMPA para las palabras del texto de entrada. Asegúrate de usar fonemas adecuados para el idioma para obtener una renderización precisa. Puedes obtener más información sobre la anulación de fonemas en nuestra documentación sobre fonemas.
Ejemplo de SynthesizeSpeechRequest con pronunciaciones personalizadas:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"text": "There is a dog in the boat",
"custom_pronunciations": {
"phrase": "dog",
"phonetic_encoding": "PHONETIC_ENCODING_X_SAMPA",
"pronunciation": "\"k{t",
}
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Ejemplo de StreamingSynthesizeConfig con pronunciaciones personalizadas:
{
"streaming_audio_config": {
"audio_encoding": "LINEAR16",
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
"custom_pronunciations": {
"phrase": "dog",
"phonetic_encoding": "PHONETIC_ENCODING_X_SAMPA",
"pronunciation": "\"k{t",
}
}
Muestras de audio de pronunciaciones personalizadas:
Se aplicaron pronunciaciones personalizadas | Salida |
---|---|
Ninguno | |
"dog" se pronuncia ""k{t" |
Las frases anuladas se pueden dar formato de cualquier manera, incluso con símbolos. Por ejemplo, en caso de ambigüedad potencial basada en el contexto en la concordancia de frases (que es común en idiomas como el chino y el japonés) o en oraciones en las que una palabra se puede pronunciar de diferentes maneras, se puede dar formato a la frase para quitar la ambigüedad. Por ejemplo, para evitar reemplazar accidentalmente otras instancias de la palabra read en la entrada, la frase "read"
podría tener el formato "read1"
, "[read]"
o "(read)"
para el texto de entrada y la frase reemplazada.
Consulta este ejemplo de aplicación de pronunciaciones personalizadas a una oración en la que la palabra read se pronuncia de dos maneras diferentes:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"text": "I read1 a book, and I will now read2 it to you.",
"custom_pronunciations": {
"phrase": "read1",
"phonetic_encoding": "PHONETIC_ENCODING_IPA",
"pronunciation": "rɛd",
}
"custom_pronunciations": {
"phrase": "read2",
"phonetic_encoding": "PHONETIC_ENCODING_IPA",
"pronunciation": "riːd",
}
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Se aplicaron pronunciaciones personalizadas | Salida |
---|---|
"read" anulado de dos maneras |
Además, las pronunciaciones personalizadas se pueden usar con la entrada de marcado, lo que también permite el uso de etiquetas de pausa:
{
"audio_config": {
"audio_encoding": "LINEAR16",
},
"input": {
"markup": "Did you [pause long] read this book?",
"custom_pronunciations": {
"phrase": "read",
"phonetic_encoding": "PHONETIC_ENCODING_IPA",
"pronunciation": "riːd",
}
},
"voice": {
"language_code": "en-US",
"name": "en-us-Chirp3-HD-Leda",
}
}
Pronunciaciones personalizadas que se usaron | Salida |
---|---|
Anula la pronunciación con la etiqueta de pausa |
Disponibilidad de idiomas para los controles por voz
El control de ritmo está disponible en todas las configuraciones regionales.
El control de pausa está disponible en todas las configuraciones regionales.
Las pronunciaciones personalizadas están disponibles en todas las configuraciones regionales, excepto en las siguientes: bn-in, gu-in, nl-be, sw-ke, th-th, uk-ua, ur-in y vi-vn.
Preguntas frecuentes
Preguntas frecuentes y sus respuestas:
¿Cómo controlo el ritmo y el flujo para mejorar el resultado de la voz?
Puedes utilizar nuestros lineamientos para la creación y redacción de instrucciones y mejorar tu instrucción de texto para mejorar la salida de voz.
¿Cómo accedo a las voces en los idiomas admitidos?
Los nombres de las voces siguen un formato específico, lo que permite el uso en todos los idiomas admitidos especificando la voz de forma única. El formato sigue \<locale\>-\<model\>-\<voice\>
. Por ejemplo, para usar la voz de Kore para inglés (Estados Unidos) con el modelo Chirp 3: Voces en HD, debes especificarla como en-US-Chirp3-HD-Kore
.
¿Las voces de Chirp 3: HD admiten SSML?
Si bien las voces de Chirp 3: HD no funcionan con SSML, puedes administrar el control de velocidad, el control de pausa y las pronunciaciones personalizadas a través de las opciones de control por voz de Chirp 3: HD.