Descargar corpus
Corpus CIEMPIESS
El Corpus CIEMPIESS fue diseñado para la creación de modelos acústicos para reconocimiento automático de voz. Consiste en 17 horas de programas de radio con conversaciones espontáneas entre el moderador y sus invitados. Todo el corpus fue extraído de Radio-IUS (UNAM) e incluye transcripciones de texto y todos los archivos necesarios para hacer experimentos con el sistema de reconocimiento CMU-Sphinx.
Da Click aquí para más información
Da Click aquí para ver el corpus en LDC
Corpus CIEMPIESS por Carlos Daniel Hernandez Mena se distribuye bajo una Licencia Creative Commons Atribucion-CompartirIgual 4.0 Internacional. Basada en una obra en http://odin.fi-b.unam.mx/CIEMPIESS-UNAM/.
HTK2SPHINX-CONVERTER
HTK2SPHINX-CONVERTER
Se trata de un software escrito en python 2.7 que permite utilizar el sistema de reconocimiento de voz HTK con los mismos archivos de entrada y casi de la misma manera que se usa el software de reconocimiento de voz CMU-SPHINX 3.
HTK2SPHINX-CONVERTER puede también hacer "reconocimiento en vivo" con ayuda del sistema de reconocimiento de voz Julius.
Las dos diferencias fundamentales entre el HTK2SPHINX-CONVERTER y el CMU-SPHINX3 es que el primero es un reconocedor de voz basado en gramáticas dependiente del hablante y el segundo utiliza modelo de lenguaje y puede ser independiente del hablante.
Da Click aquí para más información
© Copyright 2014 Carlos Daniel Hernandez Mena
HTK-BENCHMARK
HTK-BENCHMARK es una herramienta de software programada en python 2.7 quepermite utilizar el sistema de reconocimiento HTK casi de la misma manera que el sistema CMU-SPHINX3 y con los mismos archivos de entrada.
El HTK-BENCHMARK no implementa reconocimiento de voz en vivo.
HTK-BENCHMARK hace reconocimiento de voz por medio de un modelo de lenguaje basado en 3-gramas y en formato ARPA que además es compatible con SPHINX3.
© Copyright 2015 Carlos Daniel Hernandez Mena
Fonetica3 Library
La librería fonetica3 contiene funciones para transcribir
palabras en español fonetica y fonológicamente.
© Copyright 2017 Carlos Daniel Hernandez Mena
CORPUS CHM150
El Corpus CHM150 es un corpus de español mexicano tomado de 75 hablantes masculinos
y 75 hablantes femeninos con un ruido de fondo moderado, similar al de una pequeña
oficina. Tiene una duración de 1.63 horas.
Para su creación se le pidió a los hablantes que respondieran algunas preguntas,
o que describieran algunas imágenes mostradas en un monitor de computadora. Por lo tanto,
el habla es completamente espontánea, lo cual se puede comprobar en el archivo de
transcripción, que captura las disfluencias de una manera ortográfica.
El Corpus CHM150 cuenta con un total de 2663 ggrabaciones clasificadas por hablante
junto con un vocabulario total de 1898 palabras únicas. Debido a esto, el CHM150
es demasiado pequeño para ser usado como corpus de entrenamiento de un sistema
de reconocimiento de voz, sin embargo, puede funcionar bien para detección de términos
o para identificación automática de hablante.
También puedes descargarlo gratuitamente desde el sitio del Linguistic Data Consortium (LDC). Sólo
tienes que abrir una cuenta y mandarles un correo solicitando el recurso.
https://catalog.ldc.upenn.edu/LDC2016S04
CORPUS CIEMPIESS LIGHT
El Corpus CIEMPIESS LIGHT es una versión mejorada del Corpus CIEMPIESS (LDC item LDC2015S07).
El Corpus CIEMPIESS LIGHT es "light" porque no incluye muchos de los archivos de la
primera versión del CIEMPIESS y es una versión "mejorada" porque cuenta con muchas
correcciones y mejoras, muchas de ellas sugeridas por nuestra comunidad de usuarios. Estas
mejoras hacen a esta versión de CIEMPIESS sea más conveniente para sistemas de reconocimiento de voz modernos como Kaldi (http://kaldi-asr.org/).
También puedes descargarlo gratuitamente desde el sitio del Linguistic Data Consortium (LDC). Sólo
tienes que abrir una cuenta y mandarles un correo solicitando el recurso.
https://catalog.ldc.upenn.edu/LDC2017S23
CIEMPIESS BALANCE
El Corpus CIEMPIESS BALANCE (LDC2018S11) fue diseñado para ser usado en conjunto con el corpus CIEMPIESS LIGHT (LDC2017S23). El CIEMPIESS BALANCE es "balance" porque fue diseñado para balancear en género al CIEMPIESS LIGHT. Esto significa que si se combinan estos dos corpus se obtiene un solo corpus balanceado en género. Para apreciar esto hay que saber que el CIEMPIESS LIGHT es en sí mismo un corpus desbalanceado en género con aproximadamente 25% de mujeres y 75% de hombres. Por lo tanto, el CIEMPIESS BALANCE es también un corpus desbalanceado en género pero con aproximadamente 25% de hombres y 75% de mujeres.
Puedes descargarlo gratuitamente desde el sitio del Linguistic Data Consortium (LDC). Sólo tienes que abrir una cuenta y mandarles un correo solicitando el recurso.
https://catalog.ldc.upenn.edu/LDC2018S11
TEDx Spanish Corpus
El TEDx Spanish Corpus is un dataset creado a partir de las charlas de TEDx en español y fue diseñado para ser usado en el campo del reconocimiento automático de voz.
El TEDx Spanish Corpus es un corpus desbalanceado en género de 24 horas de duración. Contiene habla espontánea de muchos expositores de los eventos organizados por TEDx; la mayoría de ellos son hombres.
CIEMPIESS Experimentation Package
El CIEMPIESS Experimentation Package es un paquete con tres diferentes corpus, el Complementary, el Fem y el Test. El Complementary es un corpus fonéticamente balanceado de palabras aisladas en español del centro de México. El Fem contiene habla de 21 mujeres y fue recolectado para balancear en género otros corpus CIEMPIESS. Test consiste en 8 horas de audio tomado de programas de radio e inlcuye transcripciones; fue creado para ser usado como un test estándar. Para más detalles, ver la documentación que viene incluida con cada corpus.
También puedes descargarlo gratuitamente desde el sitio del Linguistic Data Consortium (LDC). Sólo tienes que abrir una cuenta y mandarles un correo solicitando el recurso.
https://catalog.ldc.upenn.edu/LDC2019S07
CIEMPIESS Spanish Models
Los "CIEMPIESS Spanish Models" son modelos acústicos diseñados para trabajar con PocketSphinx. Las 581 horas de audio utilizadas para entrenar los modelos provienen de muchos datasets del LDC (incluyendo todos los Corpus CIEMPIESS excepto el CIEMPIESS-TEST) y de otras fuentes recolectadas por el programa de servicio social "Desarrollo de Tecnologías del Habla" y el Proyecto CIEMPIESS-UNAM. Ambos pertenecientes a la "Universidad Nacional Autónoma de México" (UNAM) en la ciudad de México.
CIEMPIESS-PNPD
El CIEMPIESS Proper-Names Pronouncing Dictionary (CIEMPIESS-PNPD) es un diccionario de pronunciación de nombres propios creado manualmente por hablantes nativos del idioma español. Fue diseñado para usarse en las tareas de reconocimiento y síntesis de voz, pero parece que también puede ser útil, en general, para tareas de NLP. El CIEMPIESS-PNPD cuenta con casi 200 mil entradas. Tiene pronunciaciones alternativas de algunos nombres propios y también tiene listas de los nombres propios clasificados en las categorías: nombres, apellidos y lugares. La lista ”unknown” incluye nombres propios que no están incluidos en ninguna lista, por lo que no se puede saber cuál es su categoría. Los nombres propios recopilados para el CIEMPIESS-PNPD fueron tomados de instituciones que pertenecen a países de habla hispana como: México, España y Costa Rica. La mayoría de los nombres pertenecen a listas de votantes de esos países. Los nombres de los lugares fueron tomados del Instituto Nacional de Estadística, Geografía e Informática (INEGI) de México; Significa que los nombres de lugares en el CIEMPIESS-PNPD pertenecen solo a lugares, calles, vecindarios, estados, condados, etc. en México.
Fue publicado en la conferencia OpenCor 2019 celebrada en Guanajuato, México.
LibriVox Spanish
El Corpus LibriVox Spanish (LDC2020S01) consiste en aproximadamente 73 horas de audio leído en español con transcripciones. El audio fue tomado de los audio-libros en español compartidos por el proyecto LibriVox, un proyecto sin fines de lucro que crea audio-libros para el dominio público. Las transcripciones fueron hechas desde cero por nativos del español.
El link suministrado por el Linguistic Data Consortium (LDC) para solicitar el corpus es:
https://catalog.ldc.upenn.edu/LDC2020S01
Wikipedia Spanish Corpus
El Corpus Wikipedia Spanish Speech and Transcripts (LDC2021S07) consiste en aproximadamente 25 horas de grabaciones en Español leído con transcripciones inlcuidas. El texto leído fue tomado de la versión en español del proyecto WikiProject Spoken Wikipedia, denominada como Wikipedia Grabada. Las transcripciones hechas para este corpus fueron hechas por hablantes nativos del español.
CIEMPIESS-UNAM Project at Hugging Face
Visita nuestro perfil en Hugging Face