Recursos en linea
Corpus para reconocimiento de voz en las 5 lenguas más habladas del mundo
De acuerdo con el "Anuario 2013" del "Instituto Cervantes"1 y el "Atlas de la lengua española en el mundo"2, las cinco lenguas más habladas de la Tierra son: chino-mandarín, inglés, español, hindi y árabe.
Por lo tanto, en esta sección se muestran diferentes tablas comparativas entre distintos corpus en estos cinco idiomas, extraídas del Linguistic Data Consortium (LDC) y de la European Language Resources Association (ELRA).
Tablas LDC | Tablas ELRA |
---|---|
Mandarin-Chinese | Mandarin-Chinese |
English | English |
Spanish | Spanish |
Hindi | Hindi |
Arabic | Arabic |
Nota 1. El Instituto Cervantes (http://www.cervantes.es/) es una organización pública fundada en España el 21 de marzo de 1991 por el gobierno de este país y patrocinada por el rey de España. Depende directamente del "Ministerio de Asuntos Exteriores" y su principal objetivo es promover la enseñanza del español y la cultura hispana y de hispanoamérica alrededor del mundo.
Evolución del Alfabeto MEXBET
En esta sección se muestran una serie de tablas que intentan mostrar la evolución del alfabeto MEXBET a través del tiempo. Las tablas mostradas son:
- Tabla 1. Alófonos del español mexicano en distribusción complementaria en alfabeto AFI
- Tabla 2. Sistema fonológico del español mexicano en alfabeto AFI
- Tabla 3. Alófonos del español mexicano en distribusción complementaria en alfabeto MEXBET
- Tabla 4. Sistema fonológico del español mexicano en alfabeto MEXBET
- Tabla 5. Equivalencias entre símbolos AFI y MEXBET
- Tabla 6. Niveles de Transcripción del Alfabeto MEXBET utilizados en el Corpus DIMEx100
- Tabla 7. Nivel T66 de MEXBET utilizado en el Corpus DIMEx100
- Tabla 8. Versión del Nivel T29 del Alfabeto MEXBET utilizado en el Corpus CIEMPIESS
Y pueden ser accesadas desde el siguiente link:
Nota: En ciertos artículos nos hemos referido al nivel T29 de MEXBET como el nivel T22 y al nivel T66 como T50, pero esto es incorrecto porque los números "22","29" o "66", etc. deben reflejar el número de fonemas y alófonos considerados en ese nivel de MEXBET.
Versión del Alfabeto MEXBET utilizada en el Corpus CIEMPIESS
En esta sección se muestran los dos niveles de transcripción de MEXBET utilizados en los diccionarios de pronunciación del Corpus CIEMPIESS. Estos son:
- Tabla 1. Nivel T66 de MEXBET utilizado en el Corpus CIEMPIESS
- Tabla 2. Versión del Nivel T29 del Alfabeto MEXBET utilizado en el Corpus CIEMPIESS
Estas tablas pueden ser accesadas desde el siguiente link:
Nota: En ciertos artículos nos hemos referido al nivel T29 de MEXBET como el nivel T22 y al nivel T66 como T50, pero esto es incorrecto porque los números "22","29" o "66", etc. deben reflejar el número de fonemas y alófonos considerados en ese nivel de MEXBET.
Experimento con algoritmo PFS
En esta sección se pueden encontrar programas en Python que implementan los algoritmos PFS y PFS-US.
También se puede encontrar un corpus de más de 100 mil palabras con pre-transcripción y un conjunto de archivos de agrupamiento que muestran una comparación entre seis diferentes algoritmos fonéticos: Soundex, NYSIIS, Double Metaphone, Phonix, PFS and PFS-US.