CIEMPIESS-UNAM

Recursos en linea

Corpus para reconocimiento de voz en las 5 lenguas más habladas del mundo

De acuerdo con el "Anuario 2013" del "Instituto Cervantes"¹ y el "Atlas de la lengua española en el mundo"², las cinco lenguas más habladas de la Tierra son: chino-mandarín, inglés, español, hindi y árabe.

Por lo tanto, en esta sección se muestran diferentes tablas comparativas entre distintos corpus en estos cinco idiomas, extraídas del Linguistic Data Consortium (LDC) y de la European Language Resources Association (ELRA).

Tablas LDC	Tablas ELRA
Mandarin-Chinese	Mandarin-Chinese
English	English
Spanish	Spanish
Hindi	Hindi
Arabic	Arabic

Nota 1. El Instituto Cervantes (http://www.cervantes.es/) es una organización pública fundada en España el 21 de marzo de 1991 por el gobierno de este país y patrocinada por el rey de España. Depende directamente del "Ministerio de Asuntos Exteriores" y su principal objetivo es promover la enseñanza del español y la cultura hispana y de hispanoamérica alrededor del mundo.

Nota 2. http://cvc.cervantes.es/lengua/anuario/anuario_13/

Evolución del Alfabeto MEXBET

En esta sección se muestran una serie de tablas que intentan mostrar la evolución del alfabeto MEXBET a través del tiempo. Las tablas mostradas son:

Tabla 1. Alófonos del español mexicano en distribusción complementaria en alfabeto AFI
Tabla 2. Sistema fonológico del español mexicano en alfabeto AFI
Tabla 3. Alófonos del español mexicano en distribusción complementaria en alfabeto MEXBET
Tabla 4. Sistema fonológico del español mexicano en alfabeto MEXBET
Tabla 5. Equivalencias entre símbolos AFI y MEXBET
Tabla 6. Niveles de Transcripción del Alfabeto MEXBET utilizados en el Corpus DIMEx100
Tabla 7. Nivel T66 de MEXBET utilizado en el Corpus DIMEx100
Tabla 8. Versión del Nivel T29 del Alfabeto MEXBET utilizado en el Corpus CIEMPIESS

Y pueden ser accesadas desde el siguiente link:

Evolución de MEXBET
Nota: En ciertos artículos nos hemos referido al nivel T29 de MEXBET como el nivel T22 y al nivel T66 como T50, pero esto es incorrecto porque los números "22","29" o "66", etc. deben reflejar el número de fonemas y alófonos considerados en ese nivel de MEXBET.

Versión del Alfabeto MEXBET utilizada en el Corpus CIEMPIESS

En esta sección se muestran los dos niveles de transcripción de MEXBET utilizados en los diccionarios de pronunciación del Corpus CIEMPIESS. Estos son:

Tabla 1. Nivel T66 de MEXBET utilizado en el Corpus CIEMPIESS
Tabla 2. Versión del Nivel T29 del Alfabeto MEXBET utilizado en el Corpus CIEMPIESS

Estas tablas pueden ser accesadas desde el siguiente link:

MEXBET para el Corpus CIEMPIESS
Nota: En ciertos artículos nos hemos referido al nivel T29 de MEXBET como el nivel T22 y al nivel T66 como T50, pero esto es incorrecto porque los números "22","29" o "66", etc. deben reflejar el número de fonemas y alófonos considerados en ese nivel de MEXBET.

Experimento con algoritmo PFS

En esta sección se pueden encontrar programas en Python que implementan los algoritmos PFS y PFS-US.

También se puede encontrar un corpus de más de 100 mil palabras con pre-transcripción y un conjunto de archivos de agrupamiento que muestran una comparación entre seis diferentes algoritmos fonéticos: Soundex, NYSIIS, Double Metaphone, Phonix, PFS and PFS-US.

Da click aquí

Recursos

En esta sección te mostramos muchos enlaces a páginas relacionadas al área procesamiento de voz que podrías encontrar interesantes.

Si crees que hemos omitido alguna liga que tu crees que deba estar aquí o si tu tienes tu propio proyecto de procesamiento de voz que quieras compartir con nuestros lectores, por favor háznoslo saber!!!