CIEMPIESS-UNAM

Descargar corpus

Corpus CIEMPIESS

El Corpus CIEMPIESS fue diseñado para la creación de modelos acústicos para reconocimiento automático de voz. Consiste en 17 horas de programas de radio con conversaciones espontáneas entre el moderador y sus invitados. Todo el corpus fue extraído de Radio-IUS (UNAM) e incluye transcripciones de texto y todos los archivos necesarios para hacer experimentos con el sistema de reconocimiento CMU-Sphinx.

CIEMPIESS_Statistics

Archivo README.txt

Da Click aquí para más información

Da Click aquí para ver el corpus en LDC

¿Cómo citar?

Licencia:

Corpus CIEMPIESS por Carlos Daniel Hernandez Mena se distribuye bajo una Licencia Creative Commons Atribucion-CompartirIgual 4.0 Internacional. Basada en una obra en http://odin.fi-b.unam.mx/CIEMPIESS-UNAM/.

Download CIEMPIESS

HTK2SPHINX-CONVERTER

HTK2SPHINX-CONVERTER Se trata de un software escrito en python 2.7 que permite utilizar el sistema de reconocimiento de voz HTK con los mismos archivos de entrada y casi de la misma manera que se usa el software de reconocimiento de voz CMU-SPHINX 3.

HTK2SPHINX-CONVERTER puede también hacer "reconocimiento en vivo" con ayuda del sistema de reconocimiento de voz Julius.

Las dos diferencias fundamentales entre el HTK2SPHINX-CONVERTER y el CMU-SPHINX3 es que el primero es un reconocedor de voz basado en gramáticas dependiente del hablante y el segundo utiliza modelo de lenguaje y puede ser independiente del hablante.

Da Click aquí para más información

© Copyright 2014 Carlos Daniel Hernandez Mena

Dowload HTK2SPHINX-CONVERTER

HTK-BENCHMARK

HTK-BENCHMARK es una herramienta de software programada en python 2.7 quepermite utilizar el sistema de reconocimiento HTK casi de la misma manera que el sistema CMU-SPHINX3 y con los mismos archivos de entrada.

El HTK-BENCHMARK no implementa reconocimiento de voz en vivo.

HTK-BENCHMARK hace reconocimiento de voz por medio de un modelo de lenguaje basado en 3-gramas y en formato ARPA que además es compatible con SPHINX3.

Download HTK-BENCHMARK

Fonetica3 Library

La librería fonetica3 contiene funciones para transcribir palabras en español fonetica y fonológicamente.

© Copyright 2017 Carlos Daniel Hernandez Mena

Download Fonetica3 Library

CORPUS CHM150

El Corpus CHM150 es un corpus de español mexicano tomado de 75 hablantes masculinos y 75 hablantes femeninos con un ruido de fondo moderado, similar al de una pequeña oficina. Tiene una duración de 1.63 horas.

Para su creación se le pidió a los hablantes que respondieran algunas preguntas, o que describieran algunas imágenes mostradas en un monitor de computadora. Por lo tanto, el habla es completamente espontánea, lo cual se puede comprobar en el archivo de transcripción, que captura las disfluencias de una manera ortográfica.

El Corpus CHM150 cuenta con un total de 2663 ggrabaciones clasificadas por hablante junto con un vocabulario total de 1898 palabras únicas. Debido a esto, el CHM150 es demasiado pequeño para ser usado como corpus de entrenamiento de un sistema de reconocimiento de voz, sin embargo, puede funcionar bien para detección de términos o para identificación automática de hablante.

También puedes descargarlo gratuitamente desde el sitio del Linguistic Data Consortium (LDC). Sólo tienes que abrir una cuenta y mandarles un correo solicitando el recurso.
https://catalog.ldc.upenn.edu/LDC2016S04

Download

CORPUS CIEMPIESS LIGHT

El Corpus CIEMPIESS LIGHT es una versión mejorada del Corpus CIEMPIESS (LDC item LDC2015S07).

El Corpus CIEMPIESS LIGHT es "light" porque no incluye muchos de los archivos de la primera versión del CIEMPIESS y es una versión "mejorada" porque cuenta con muchas correcciones y mejoras, muchas de ellas sugeridas por nuestra comunidad de usuarios. Estas mejoras hacen a esta versión de CIEMPIESS sea más conveniente para sistemas de reconocimiento de voz modernos como Kaldi (http://kaldi-asr.org/).

También puedes descargarlo gratuitamente desde el sitio del Linguistic Data Consortium (LDC). Sólo tienes que abrir una cuenta y mandarles un correo solicitando el recurso.
https://catalog.ldc.upenn.edu/LDC2017S23

Download

CIEMPIESS BALANCE

El Corpus CIEMPIESS BALANCE (LDC2018S11) fue diseñado para ser usado en conjunto con el corpus CIEMPIESS LIGHT (LDC2017S23). El CIEMPIESS BALANCE es "balance" porque fue diseñado para balancear en género al CIEMPIESS LIGHT. Esto significa que si se combinan estos dos corpus se obtiene un solo corpus balanceado en género. Para apreciar esto hay que saber que el CIEMPIESS LIGHT es en sí mismo un corpus desbalanceado en género con aproximadamente 25% de mujeres y 75% de hombres. Por lo tanto, el CIEMPIESS BALANCE es también un corpus desbalanceado en género pero con aproximadamente 25% de hombres y 75% de mujeres.

Puedes descargarlo gratuitamente desde el sitio del Linguistic Data Consortium (LDC). Sólo tienes que abrir una cuenta y mandarles un correo solicitando el recurso.
https://catalog.ldc.upenn.edu/LDC2018S11

Download

TEDx Spanish Corpus

El TEDx Spanish Corpus is un dataset creado a partir de las charlas de TEDx en español y fue diseñado para ser usado en el campo del reconocimiento automático de voz.

El TEDx Spanish Corpus es un corpus desbalanceado en género de 24 horas de duración. Contiene habla espontánea de muchos expositores de los eventos organizados por TEDx; la mayoría de ellos son hombres.

Download

CIEMPIESS Experimentation Package

El CIEMPIESS Experimentation Package es un paquete con tres diferentes corpus, el Complementary, el Fem y el Test. El Complementary es un corpus fonéticamente balanceado de palabras aisladas en español del centro de México. El Fem contiene habla de 21 mujeres y fue recolectado para balancear en género otros corpus CIEMPIESS. Test consiste en 8 horas de audio tomado de programas de radio e inlcuye transcripciones; fue creado para ser usado como un test estándar. Para más detalles, ver la documentación que viene incluida con cada corpus.

También puedes descargarlo gratuitamente desde el sitio del Linguistic Data Consortium (LDC). Sólo tienes que abrir una cuenta y mandarles un correo solicitando el recurso.
https://catalog.ldc.upenn.edu/LDC2019S07

NUEVO!!!: Actualización de las Transcripciones del CIEMPIESS-TEST

Download

CIEMPIESS Spanish Models

Los "CIEMPIESS Spanish Models" son modelos acústicos diseñados para trabajar con PocketSphinx. Las 581 horas de audio utilizadas para entrenar los modelos provienen de muchos datasets del LDC (incluyendo todos los Corpus CIEMPIESS excepto el CIEMPIESS-TEST) y de otras fuentes recolectadas por el programa de servicio social "Desarrollo de Tecnologías del Habla" y el Proyecto CIEMPIESS-UNAM. Ambos pertenecientes a la "Universidad Nacional Autónoma de México" (UNAM) en la ciudad de México.

Download

CIEMPIESS-PNPD

El CIEMPIESS Proper-Names Pronouncing Dictionary (CIEMPIESS-PNPD) es un diccionario de pronunciación de nombres propios creado manualmente por hablantes nativos del idioma español. Fue diseñado para usarse en las tareas de reconocimiento y síntesis de voz, pero parece que también puede ser útil, en general, para tareas de NLP. El CIEMPIESS-PNPD cuenta con casi 200 mil entradas. Tiene pronunciaciones alternativas de algunos nombres propios y también tiene listas de los nombres propios clasificados en las categorías: nombres, apellidos y lugares. La lista ”unknown” incluye nombres propios que no están incluidos en ninguna lista, por lo que no se puede saber cuál es su categoría. Los nombres propios recopilados para el CIEMPIESS-PNPD fueron tomados de instituciones que pertenecen a países de habla hispana como: México, España y Costa Rica. La mayoría de los nombres pertenecen a listas de votantes de esos países. Los nombres de los lugares fueron tomados del Instituto Nacional de Estadística, Geografía e Informática (INEGI) de México; Significa que los nombres de lugares en el CIEMPIESS-PNPD pertenecen solo a lugares, calles, vecindarios, estados, condados, etc. en México.

Fue publicado en la conferencia OpenCor 2019 celebrada en Guanajuato, México.

Download

LibriVox Spanish

El Corpus LibriVox Spanish (LDC2020S01) consiste en aproximadamente 73 horas de audio leído en español con transcripciones. El audio fue tomado de los audio-libros en español compartidos por el proyecto LibriVox, un proyecto sin fines de lucro que crea audio-libros para el dominio público. Las transcripciones fueron hechas desde cero por nativos del español.

El link suministrado por el Linguistic Data Consortium (LDC) para solicitar el corpus es:

https://catalog.ldc.upenn.edu/LDC2020S01

Download

Wikipedia Spanish Corpus

El Corpus Wikipedia Spanish Speech and Transcripts (LDC2021S07) consiste en aproximadamente 25 horas de grabaciones en Español leído con transcripciones inlcuidas. El texto leído fue tomado de la versión en español del proyecto WikiProject Spoken Wikipedia, denominada como Wikipedia Grabada. Las transcripciones hechas para este corpus fueron hechas por hablantes nativos del español.

Download

CIEMPIESS-UNAM Project at Hugging Face

Visita nuestro perfil en Hugging Face

VISIT

Sección de Descargas

En esta sección podrás descargar las herramientas y recursos lingüisticos desarrollados por el proyecto (CIEMPIESS-UNAM). Todos nuestros contenidos se encuentran protegidos por licencias internacionales que trabajan de forma gratuita al público, por lo que puedes modificar, distribuir y adaptar nuestras creaciones a tus necesidades particulares sin costo alguno.

Si encuentras fallas en nuestro software por favor avísanos.
Si le haces mejoras por favor compártelas!!!
Si usas nuestras herramientas con fines académicos, por favor regálanos una cita, eso nos sirve mucho!!!