Datasets Abiertos para la Investigación Académica

Visión artificial

Reconocimiento de Voz

Nombre del Datasets	Tipo de dato	Tamaño de los Datos	Contenido de la captura
1000 imágenes con datos de subtítulos de diversas escenas	Imagen	1000 imágenes	Dataset de pie de foto de diversas escenas. La distribución de las escenas incluye paisajes naturales, calles urbanas, exposiciones, entornos domésticos, etc. Cada imagen incluye una descripción en inglés de 3-5 frases.
Datos de pie de foto de 1000 imágenes de OCR en escenas naturales	Imagen	1000 imágenes	Dataset de subtítulos OCR en 14 idiomas. Las imágenes incluyen paradas de autobús, carteles, señales de tráfico, etc. Cada imagen incluye una descripción en inglés de 3-5 frases.
Datos de pie de foto de 1000 imágenes de rostro humano	Imagen	1000 imágenes	Dataset de subtítulos de imágenes de rostros humanos con diversas posturas de la cabeza, expresiones faciales, etc. Cada imagen incluye una descripción en inglés de 3-5 oraciones.
Datos de subtítulos de 1000 imágenes con gestos.	Imagen	1000 imágenes	Dataset de subtítulos de imágenes con gestos, con diferentes ángulos y categorías. Cada imagen incluye una descripción en inglés de 3-5 oraciones.
1000 imágenes de datos sobre defectos de la piel facial humana	Imagen	1000 imágenes	Dataset sobre defectos de la piel facial, incluyendo acné, cicatrices de acné, manchas oscuras, arrugas y ojeras.
Datos de subtítulos de 1000 vídeos sobre movimiento humano	Vídeo	1000 videos.	Dataset de subtítulos de video con movimiento humano en escenas con y sin CCTV. Los movimientos humanos incluyen caminar, beber, bostezar, hacer ejercicio, etc. Cada video incluye subtítulos en inglés.
Datos de reconocimiento de 7 expresiones multirraciales de 1000 personas	Imagen	1000 personas	Dataset de 7 expresiones faciales, incluyendo normal, feliz, asombrado, triste, enojado, disgustado y asustado.
1000 videos. Datos de microexpresiones multirraciales (FACS).	Vídeo	1000 videos.	Dataset de 57 microexpresiones faciales, incluyendo elevación de la ceja interna (AU1), elevación de la ceja externa (AU2), elevación del párpado superior (AU5), etc.
50 personas - Datos DMS	Vídeo	50 personas	Dataset DMS sobre comportamiento peligroso, comportamiento de fatiga y comportamiento visual de movimiento. La diversidad del Datasets incluye diferentes edades, periodos de tiempo, tipos de vehículos y posiciones de cámara de los sujetos.
Datos anti-suplantación de rostros 2D de 50 personas	Imagen y vídeo	50 personas	Dataset anti-suplantación de rostros 2D. Los datos de rostros reales incluyen videos de acción facial, imágenes faciales y videos de lenguaje labial. Los datos anti-suplantación incluyen videos de acción facial, videos de lenguaje labial e imágenes faciales falsas.
1000 imágenes de datos de reconocimiento de gestos	Imagen	1000 imágenes	Dataset de reconocimiento de gestos con 18 categorías. Estas categorías incluyen el número 1, OK, LOVE, etc. Para la anotación del Datasets, se utilizaron 21 puntos de referencia de la mano y etiquetas para múltiples gestos.
3000 imágenes de datos OCR de escenas naturales	Imagen	3000 imágenes	Dataset de OCR de escenas naturales de idiomas asiáticos (japonés, coreano, etc.) y europeos (francés, alemán, etc.). Para la anotación, se utilizó la anotación y transcripción de textos mediante cuadros delimitadores cuadriláteros a nivel de línea.
500 imágenes de datos OCR de escritura a mano	Imagen	500 imágenes	Datos de OCR de escritura a mano en inglés y japonés. Para la anotación, se utilizó un cuadro delimitador cuadrilátero a nivel de línea y la transcripción de los textos.
50 personas - Datos de anti-spoofing facial 3D	Imagen	50 personas	Dataset antisuplantación de rostros 3D. Los datos de rostros reales incluyen imágenes faciales. Los datos antisuplantación incluyen imágenes faciales falsas. Cada imagen corresponde a una imagen de profundidad, un archivo de valores de profundidad y un archivo de parámetros de la cámara.
Datos de imágenes de rostros multirraciales y en múltiples poses de 1000 personas	Imagen	1000 personas	Dataset de reconocimiento facial de múltiples razas. Cada sujeto cuenta con 29 imágenes faciales, incluyendo 14 imágenes multipose en interiores, 14 imágenes multipose en exteriores y una imagen de identificación. Las anotaciones incluyen etiquetas de raza, género, edad y pose facial.

Nombre del Datasets	Dispositivo de Grabación	Tamaño de los Datos	Especificaciones
2 horas - Corpus de síntesis de voz en inglés de 4 países	Micrófono	2 horas, 4 personas	Personas: 4 personas de Estados Unidos, Gran Bretaña, Australia y Nueva Zelanda. Formato: 48.000 Hz, 24 bits, WAV sin comprimir, canal mono. Entorno de grabación: estudio de grabación profesional.
20 horas - Lectura y conversación en francés de Francia por teléfono móvil	Teléfono móvil	20 horas	Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Portugal. Idioma: Portugués. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en alemán por teléfono móvil	Teléfono móvil	20 horas	Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Alemania. Idioma: Alemán. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en italiano por teléfono móvil	Teléfono móvil	20 horas	Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Italia. Idioma: Italiano. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en español de España por teléfono móvil	Teléfono móvil	20 horas	Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: España. Idioma: Español. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en portugués europeo por teléfono móvil	Teléfono móvil	20 horas	Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Portugal. Idioma: Portugués. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en japonés por teléfono móvil	Teléfono móvil	20 horas	Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Japón. Idioma: Japonés. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en coreano por teléfono móvil	Teléfono móvil	20 horas	Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interiores), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Corea. Idioma: Coreano. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
10 horas - Datos del habla conversacional en pastún por teléfono	Teléfono	10 horas	Formato: 8 kHz 8 bits, pcm ley a/ley u, canal mono Categoría de contenido: Diálogos sobre temas específicos Condiciones de grabación: Bajo ruido de fondo (interiores) Dispositivo de grabación: Teléfono País: Afganistán (AFG) Código de idioma (región): ps-AF Idioma: Pastún Oradores: 224 personas en total, 92 % hombres y 8 % mujeres Características de la anotación: Texto de transcripción, marca de tiempo, ID del orador, género Tasa de precisión: Tasa de precisión de palabras95 % Tasa de precisión: Tasa de precisión de palabras95 %
Datos del concurso de reconocimiento de voz en inglés con acento de Interspeech_	Teléfono móvil	200 horas, 528 personas	Formato de audio: 16 kHz, 16 bits, mono wav Contenido de audio: Principalmente comunicación cotidiana, incluyendo escenas como la interacción persona-computadora Entorno de grabación: Interior relativamente tranquilo, grabación con teléfono móvil Duración: Aproximadamente 20 horas por cada acento, con un total de 8 acentos Tipos de idiomas: Ruso, coreano, estadounidense, portugués, japonés, indio, británico Hablantes: Entre 40 y 110 hablantes por idioma

Nota: Solicite Datasets de forma razonable según el campo de investigación. El número máximo de solicitudes para Datasets de Visión Artificial es de 6.

Nota: Por favor, solicite Datasets que se ajusten al campo de investigación. El número máximo de solicitudes para Datasets de Visión Artificial es de 4.

Datasets abiertos para la investigación académica

Proceso de solicitud e instrucciones

Solicitar Datasets patrocinado

Institución de cooperación