Introducción

La entonación codifica la posición de una palabra en la oración y otros aspectos también como el índice de interrogación, etc.

El estilo será el seguido hasta ahora y ejemplificado a lo largo del documento

Cuidado con la falta de naturalidad

el énfasis excesivo en nombres compuestos u otros

Procedimiento

Dedicar un tiempo

  1. a escuchar la entonación de los elementos de referencia

  2. a entender por qué funcionan o no funcionan por su entonación dos de las tres evaluaciones de la grabación de nombres (se omiten los nombres aceptables)

Expresiones

Para normalizar las expresiones que no sean nombres se utilizará la expresión de referencia siguiente, asimilándolas así en intensidad, sonoridad y demás parámetros:

"Deseo hablar con... "

Expresiones de inserción y variables

Puesto que deseamos una calidad de voz natural y no un sintetizador de voz esto supone un problema en la inserción de variables a ciertas expresiones, como por ejemplo

Deseo hablar con {user_name}

No es posible crear todas las posibles combinaciones de expresiones de inserción y variables pues pueden llegar a ser de cientos de miles de combinaciones.

El objetivo de este documento es crear un método para que pueda automatizarse tal inserción desde un repertorio de expresiones y variables.

Contamos por ello con

Los nombres requerirán un importante esfuerzo de ajuste ya que su número es considerable

Posiciones convenientes de variables

Ignoramos el resilabeo (con Antonio = co.nan.to.nio) No vamos a proporcionar variables en posición media ni, por ahora, en oraciones interrogativas. Sólo mantenemos dos esquemas oracionales: nombre en posición inicial (vocativo) y final.

  1. En posición final es descendente en entonación y también parece que ligeramente en intensidad. En esta posición final hay que evitar las oclusivas glotales de los nombres que empiezan por mayúscula (oclusiva glotal + vocal)

  2. El vocativo, en posición inicial, sirve para llamar la atención a una persona (como “Antonio, dígame si le interesa”). Si se observa cómo lo pronunciamos, acaba en entonación ascendente.

    Aquí se pronuncia de manera natural: se mantienen las oclusivas glotales que pronunciamos naturalmente en palabras que empiezan por mayúscula al principio de oración)

Variables: los nombres

1. Grabación de nombres

Se grabarán los nombres en dos variaciones que conllevan diferencias de entonación: posición inicial y final (la media es inmanejable)

 

  1. Nombre en posición inicial, vocativo (llama la atención a alguien). Tiene una entonación característica ascendente al final, sugiriendo continuidad, mejor escúchese el ejemplo:

Véase su inserción en una expresión

 

  1. Nombre en posición final. No posee una entonación especial pero deberá asemejarse a la siguiente que ha demostrado ajustarse bien:

Véase su inserción en una expresión con una prolongación de sílaba para romper la entonación previa:

Resultado:

 

Los nombres se pueden grabar en un solo archivo. En este caso hay que dejar un silencio entre los nombres para facilitar, posteriormente, la segmentación automática de cada uno.

2. Segmentación automática

El programa de segmentación segmenta y nombra los segmentos según una lista.

A veces habrá que modificar esa lista como manera más cómoda de considerar que:

  1. hay un segmento que no es un nombre sino un ruido
  2. el locutor se ha saltado ha repetido algún nombre

3. Control de calidad

Tras segmentar los audios, concatenaré automáticamente todos los nombres y expresiones de inserción. Evaluaré el ajuste de entonación

El control de calidad usará una puntuación entre 0 y 5

Esta puntuación se guardará ubicando los archivos en carpetas nombradas con estos números:

Los puntuados como 0 deben repetirse o mejorarse pero también es recomendable hacerlo con los 1 en algún momento

4. Normalización

Una vez que se dé el visto bueno, se normalizarán los nombres.

La estructura de directorios de la sección anterior deberá mantenerse para mantener la información del control de calidad y para que pueda seguir trabajando sobre ello.

Para normalizar los nombres se utilizará como audio de referencia el anterior "Elena"

5. Control de calidad

Las concatenaré de nuevo y verificaré el ajuste en intensidad

A pesar de la normalización habrá audios que no se ajusten bien

Habrá que automatizar esto