| Nombre del Datasets | Tipo de dato | Tamaño de los Datos | Contenido de la captura |
| 1000 imágenes con datos de subtítulos de diversas escenas | Imagen | 1000 imágenes | Dataset de pie de foto de diversas escenas. La distribución de las escenas incluye paisajes naturales, calles urbanas, exposiciones, entornos domésticos, etc. Cada imagen incluye una descripción en inglés de 3-5 frases. |
| Datos de pie de foto de 1000 imágenes de OCR en escenas naturales | Imagen | 1000 imágenes | Dataset de subtítulos OCR en 14 idiomas. Las imágenes incluyen paradas de autobús, carteles, señales de tráfico, etc. Cada imagen incluye una descripción en inglés de 3-5 frases. |
| Datos de pie de foto de 1000 imágenes de rostro humano | Imagen | 1000 imágenes | Dataset de subtítulos de imágenes de rostros humanos con diversas posturas de la cabeza, expresiones faciales, etc. Cada imagen incluye una descripción en inglés de 3-5 oraciones. |
| Datos de subtítulos de 1000 imágenes con gestos. | Imagen | 1000 imágenes | Dataset de subtítulos de imágenes con gestos, con diferentes ángulos y categorías. Cada imagen incluye una descripción en inglés de 3-5 oraciones. |
| 1000 imágenes de datos sobre defectos de la piel facial humana | Imagen | 1000 imágenes | Dataset sobre defectos de la piel facial, incluyendo acné, cicatrices de acné, manchas oscuras, arrugas y ojeras. |
| Datos de subtítulos de 1000 vídeos sobre movimiento humano | Vídeo | 1000 videos. | Dataset de subtítulos de video con movimiento humano en escenas con y sin CCTV. Los movimientos humanos incluyen caminar, beber, bostezar, hacer ejercicio, etc. Cada video incluye subtítulos en inglés. |
| Datos de reconocimiento de 7 expresiones multirraciales de 1000 personas | Imagen | 1000 personas | Dataset de 7 expresiones faciales, incluyendo normal, feliz, asombrado, triste, enojado, disgustado y asustado. |
| 1000 videos. Datos de microexpresiones multirraciales (FACS). | Vídeo | 1000 videos. | Dataset de 57 microexpresiones faciales, incluyendo elevación de la ceja interna (AU1), elevación de la ceja externa (AU2), elevación del párpado superior (AU5), etc. |
| 50 personas - Datos DMS | Vídeo | 50 personas | Dataset DMS sobre comportamiento peligroso, comportamiento de fatiga y comportamiento visual de movimiento. La diversidad del Datasets incluye diferentes edades, periodos de tiempo, tipos de vehículos y posiciones de cámara de los sujetos. |
| Datos anti-suplantación de rostros 2D de 50 personas | Imagen y vídeo | 50 personas | Dataset anti-suplantación de rostros 2D. Los datos de rostros reales incluyen videos de acción facial, imágenes faciales y videos de lenguaje labial. Los datos anti-suplantación incluyen videos de acción facial, videos de lenguaje labial e imágenes faciales falsas. |
| 1000 imágenes de datos de reconocimiento de gestos | Imagen | 1000 imágenes | Dataset de reconocimiento de gestos con 18 categorías. Estas categorías incluyen el número 1, OK, LOVE, etc. Para la anotación del Datasets, se utilizaron 21 puntos de referencia de la mano y etiquetas para múltiples gestos. |
| 3000 imágenes de datos OCR de escenas naturales | Imagen | 3000 imágenes | Dataset de OCR de escenas naturales de idiomas asiáticos (japonés, coreano, etc.) y europeos (francés, alemán, etc.). Para la anotación, se utilizó la anotación y transcripción de textos mediante cuadros delimitadores cuadriláteros a nivel de línea. |
| 500 imágenes de datos OCR de escritura a mano | Imagen | 500 imágenes | Datos de OCR de escritura a mano en inglés y japonés. Para la anotación, se utilizó un cuadro delimitador cuadrilátero a nivel de línea y la transcripción de los textos. |
| 50 personas - Datos de anti-spoofing facial 3D | Imagen | 50 personas | Dataset antisuplantación de rostros 3D. Los datos de rostros reales incluyen imágenes faciales. Los datos antisuplantación incluyen imágenes faciales falsas. Cada imagen corresponde a una imagen de profundidad, un archivo de valores de profundidad y un archivo de parámetros de la cámara. |
| Datos de imágenes de rostros multirraciales y en múltiples poses de 1000 personas | Imagen | 1000 personas | Dataset de reconocimiento facial de múltiples razas. Cada sujeto cuenta con 29 imágenes faciales, incluyendo 14 imágenes multipose en interiores, 14 imágenes multipose en exteriores y una imagen de identificación. Las anotaciones incluyen etiquetas de raza, género, edad y pose facial. |
| Nombre del Datasets | Dispositivo de Grabación | Tamaño de los Datos | Especificaciones |
| 2 horas - Corpus de síntesis de voz en inglés de 4 países | Micrófono | 2 horas, 4 personas | Personas: 4 personas de Estados Unidos, Gran Bretaña, Australia y Nueva Zelanda. Formato: 48.000 Hz, 24 bits, WAV sin comprimir, canal mono. Entorno de grabación: estudio de grabación profesional. |
| 20 horas - Lectura y conversación en francés de Francia por teléfono móvil | Teléfono móvil | 20 horas | Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Portugal. Idioma: Portugués. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %. |
| 20 horas - Lectura y conversación en alemán por teléfono móvil | Teléfono móvil | 20 horas | Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Alemania. Idioma: Alemán. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %. |
| 20 horas - Lectura y conversación en italiano por teléfono móvil | Teléfono móvil | 20 horas | Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Italia. Idioma: Italiano. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %. |
| 20 horas - Lectura y conversación en español de España por teléfono móvil | Teléfono móvil | 20 horas | Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: España. Idioma: Español. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %. |
| 20 horas - Lectura y conversación en portugués europeo por teléfono móvil | Teléfono móvil | 20 horas | Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Portugal. Idioma: Portugués. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %. |
| 20 horas - Lectura y conversación en japonés por teléfono móvil | Teléfono móvil | 20 horas | Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interior), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Japón. Idioma: Japonés. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %. |
| 20 horas - Lectura y conversación en coreano por teléfono móvil | Teléfono móvil | 20 horas | Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono. Condiciones de grabación: Bajo ruido de fondo (interiores), sin eco. Categoría de contenido: Lectura, conversación. Dispositivo de grabación: Smartphone Android, iPhone. País: Corea. Idioma: Coreano. Características de la anotación: Transcripción de texto. Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %. |
| 10 horas - Datos del habla conversacional en pastún por teléfono | Teléfono | 10 horas | Formato: 8 kHz 8 bits, pcm ley a/ley u, canal mono Categoría de contenido: Diálogos sobre temas específicos Condiciones de grabación: Bajo ruido de fondo (interiores) Dispositivo de grabación: Teléfono País: Afganistán (AFG) Código de idioma (región): ps-AF Idioma: Pastún Oradores: 224 personas en total, 92 % hombres y 8 % mujeres Características de la anotación: Texto de transcripción, marca de tiempo, ID del orador, género Tasa de precisión: Tasa de precisión de palabras95 % Tasa de precisión: Tasa de precisión de palabras95 % |
| Datos del concurso de reconocimiento de voz en inglés con acento de Interspeech_ | Teléfono móvil | 200 horas, 528 personas | Formato de audio: 16 kHz, 16 bits, mono wav Contenido de audio: Principalmente comunicación cotidiana, incluyendo escenas como la interacción persona-computadora Entorno de grabación: Interior relativamente tranquilo, grabación con teléfono móvil Duración: Aproximadamente 20 horas por cada acento, con un total de 8 acentos Tipos de idiomas: Ruso, coreano, estadounidense, portugués, japonés, indio, británico Hablantes: Entre 40 y 110 hablantes por idioma |
Nota: Solicite Datasets de forma razonable según el campo de investigación. El número máximo de solicitudes para Datasets de Visión Artificial es de 6.
Nota: Por favor, solicite Datasets que se ajusten al campo de investigación. El número máximo de solicitudes para Datasets de Visión Artificial es de 4.