Please fill in your name

Mobile phone format error

Ingrese el teléfono

Introduzca el nombre de su empresa

Introduzca el correo electrónico de su empresa.

Ingrese los datos requeridos

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

El requisito de datos no puede ser inferior a 5 palabras y no pueden ser números puros.

Datasets abiertos para la investigación académica

Nexdata ha lanzado el Programa de Investigación Asistida por Datos de IA para organizaciones sin fines de lucro de todo el mundo, incluyendo universidades e instituciones académicas. Este programa proporciona valiosos Datasets de entrenamiento en visión artificial, reconocimiento de voz y otros campos para apoyar la investigación académica en IA.

Visión artificial Visión artificial
Reconocimiento de Voz Reconocimiento de Voz
Nombre del Datasets Tipo de dato Tamaño de los Datos Contenido de la captura
1000 imágenes con datos de subtítulos de diversas escenas Imagen 1000 imágenes Dataset de pie de foto de diversas escenas. La distribución de las escenas incluye paisajes naturales, calles urbanas, exposiciones, entornos domésticos, etc. Cada imagen incluye una descripción en inglés de 3-5 frases.
Datos de pie de foto de 1000 imágenes de OCR en escenas naturales Imagen 1000 imágenes Dataset de subtítulos OCR en 14 idiomas. Las imágenes incluyen paradas de autobús, carteles, señales de tráfico, etc. Cada imagen incluye una descripción en inglés de 3-5 frases.
Datos de pie de foto de 1000 imágenes de rostro humano Imagen 1000 imágenes Dataset de subtítulos de imágenes de rostros humanos con diversas posturas de la cabeza, expresiones faciales, etc. Cada imagen incluye una descripción en inglés de 3-5 oraciones.
Datos de subtítulos de 1000 imágenes con gestos. Imagen 1000 imágenes Dataset de subtítulos de imágenes con gestos, con diferentes ángulos y categorías. Cada imagen incluye una descripción en inglés de 3-5 oraciones.
1000 imágenes de datos sobre defectos de la piel facial humana Imagen 1000 imágenes Dataset sobre defectos de la piel facial, incluyendo acné, cicatrices de acné, manchas oscuras, arrugas y ojeras.
Datos de subtítulos de 1000 vídeos sobre movimiento humano Vídeo 1000 videos. Dataset de subtítulos de video con movimiento humano en escenas con y sin CCTV. Los movimientos humanos incluyen caminar, beber, bostezar, hacer ejercicio, etc. Cada video incluye subtítulos en inglés.
Datos de reconocimiento de 7 expresiones multirraciales de 1000 personas Imagen 1000 personas Dataset de 7 expresiones faciales, incluyendo normal, feliz, asombrado, triste, enojado, disgustado y asustado.
1000 videos. Datos de microexpresiones multirraciales (FACS). Vídeo 1000 videos. Dataset de 57 microexpresiones faciales, incluyendo elevación de la ceja interna (AU1), elevación de la ceja externa (AU2), elevación del párpado superior (AU5), etc.
50 personas - Datos DMS Vídeo 50 personas Dataset DMS sobre comportamiento peligroso, comportamiento de fatiga y comportamiento visual de movimiento. La diversidad del Datasets incluye diferentes edades, periodos de tiempo, tipos de vehículos y posiciones de cámara de los sujetos.
Datos anti-suplantación de rostros 2D de 50 personas Imagen y vídeo 50 personas Dataset anti-suplantación de rostros 2D. Los datos de rostros reales incluyen videos de acción facial, imágenes faciales y videos de lenguaje labial. Los datos anti-suplantación incluyen videos de acción facial, videos de lenguaje labial e imágenes faciales falsas.
1000 imágenes de datos de reconocimiento de gestos Imagen 1000 imágenes Dataset de reconocimiento de gestos con 18 categorías. Estas categorías incluyen el número 1, OK, LOVE, etc. Para la anotación del Datasets, se utilizaron 21 puntos de referencia de la mano y etiquetas para múltiples gestos.
3000 imágenes de datos OCR de escenas naturales Imagen 3000 imágenes Dataset de OCR de escenas naturales de idiomas asiáticos (japonés, coreano, etc.) y europeos (francés, alemán, etc.). Para la anotación, se utilizó la anotación y transcripción de textos mediante cuadros delimitadores cuadriláteros a nivel de línea.
500 imágenes de datos OCR de escritura a mano Imagen 500 imágenes Datos de OCR de escritura a mano en inglés y japonés. Para la anotación, se utilizó un cuadro delimitador cuadrilátero a nivel de línea y la transcripción de los textos.
50 personas - Datos de anti-spoofing facial 3D Imagen 50 personas Dataset antisuplantación de rostros 3D. Los datos de rostros reales incluyen imágenes faciales. Los datos antisuplantación incluyen imágenes faciales falsas. Cada imagen corresponde a una imagen de profundidad, un archivo de valores de profundidad y un archivo de parámetros de la cámara.
Datos de imágenes de rostros multirraciales y en múltiples poses de 1000 personas Imagen 1000 personas Dataset de reconocimiento facial de múltiples razas. Cada sujeto cuenta con 29 imágenes faciales, incluyendo 14 imágenes multipose en interiores, 14 imágenes multipose en exteriores y una imagen de identificación. Las anotaciones incluyen etiquetas de raza, género, edad y pose facial.
Nombre del Datasets Dispositivo de Grabación Tamaño de los Datos Especificaciones
2 horas - Corpus de síntesis de voz en inglés de 4 países Micrófono 2 horas, 4 personas Personas: 4 personas de Estados Unidos, Gran Bretaña, Australia y Nueva Zelanda.
Formato: 48.000 Hz, 24 bits, WAV sin comprimir, canal mono.
Entorno de grabación: estudio de grabación profesional.
20 horas - Lectura y conversación en francés de Francia por teléfono móvil Teléfono móvil 20 horas Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono.
Condiciones de grabación: Bajo ruido de fondo (interior), sin eco.
Categoría de contenido: Lectura, conversación.
Dispositivo de grabación: Smartphone Android, iPhone.
País: Portugal.
Idioma: Portugués.
Características de la anotación: Transcripción de texto.
Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en alemán por teléfono móvil Teléfono móvil 20 horas Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono.
Condiciones de grabación: Bajo ruido de fondo (interior), sin eco.
Categoría de contenido: Lectura, conversación.
Dispositivo de grabación: Smartphone Android, iPhone.
País: Alemania.
Idioma: Alemán.
Características de la anotación: Transcripción de texto.
Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en italiano por teléfono móvil Teléfono móvil 20 horas Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono.
Condiciones de grabación: Bajo ruido de fondo (interior), sin eco.
Categoría de contenido: Lectura, conversación.
Dispositivo de grabación: Smartphone Android, iPhone.
País: Italia.
Idioma: Italiano.
Características de la anotación: Transcripción de texto.
Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en español de España por teléfono móvil Teléfono móvil 20 horas Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono.
Condiciones de grabación: Bajo ruido de fondo (interior), sin eco.
Categoría de contenido: Lectura, conversación.
Dispositivo de grabación: Smartphone Android, iPhone.
País: España.
Idioma: Español.
Características de la anotación: Transcripción de texto.
Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en portugués europeo por teléfono móvil Teléfono móvil 20 horas Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono.
Condiciones de grabación: Bajo ruido de fondo (interior), sin eco.
Categoría de contenido: Lectura, conversación.
Dispositivo de grabación: Smartphone Android, iPhone.
País: Portugal.
Idioma: Portugués.
Características de la anotación: Transcripción de texto.
Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en japonés por teléfono móvil Teléfono móvil 20 horas Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono.
Condiciones de grabación: Bajo ruido de fondo (interior), sin eco.
Categoría de contenido: Lectura, conversación.
Dispositivo de grabación: Smartphone Android, iPhone.
País: Japón.
Idioma: Japonés.
Características de la anotación: Transcripción de texto.
Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
20 horas - Lectura y conversación en coreano por teléfono móvil Teléfono móvil 20 horas Formato: 16 kHz, 16 bits, wav sin comprimir, canal mono.
Condiciones de grabación: Bajo ruido de fondo (interiores), sin eco.
Categoría de contenido: Lectura, conversación.
Dispositivo de grabación: Smartphone Android, iPhone.
País: Corea.
Idioma: Coreano.
Características de la anotación: Transcripción de texto.
Precisión: La tasa de precisión de palabras (WAR) es de al menos el 97 %.
10 horas - Datos del habla conversacional en pastún por teléfono Teléfono 10 horas Formato: 8 kHz 8 bits, pcm ley a/ley u, canal mono
Categoría de contenido: Diálogos sobre temas específicos
Condiciones de grabación: Bajo ruido de fondo (interiores)
Dispositivo de grabación: Teléfono
País: Afganistán (AFG)
Código de idioma (región): ps-AF
Idioma: Pastún
Oradores: 224 personas en total, 92 % hombres y 8 % mujeres
Características de la anotación: Texto de transcripción, marca de tiempo, ID del orador, género
Tasa de precisión: Tasa de precisión de palabras95 %
Tasa de precisión: Tasa de precisión de palabras95 %
Datos del concurso de reconocimiento de voz en inglés con acento de Interspeech_ Teléfono móvil 200 horas, 528 personas Formato de audio: 16 kHz, 16 bits, mono wav
Contenido de audio: Principalmente comunicación cotidiana, incluyendo escenas como la interacción persona-computadora
Entorno de grabación: Interior relativamente tranquilo, grabación con teléfono móvil
Duración: Aproximadamente 20 horas por cada acento, con un total de 8 acentos
Tipos de idiomas: Ruso, coreano, estadounidense, portugués, japonés, indio, británico
Hablantes: Entre 40 y 110 hablantes por idioma
Nota: Solicite Datasets de forma razonable según el campo de investigación. El número máximo de solicitudes para Datasets de Visión Artificial es de 6.
Nota: Por favor, solicite Datasets que se ajusten al campo de investigación. El número máximo de solicitudes para Datasets de Visión Artificial es de 4.

Proceso de solicitud e instrucciones

Seleccione el Datasets patrocinado

Seleccione el Datasets patrocinado

Envíe el formulario

Envíe el formulario

Espere la respuesta

Espere la respuesta

Recibir el Datasets

Recibir el Datasets

Solicitar Datasets patrocinado

Al enviar, acepto los Acuerdo de licencia de datos

Institución de cooperación

Nexdata se reserva el derecho de interpretar las actividades de datos de código abierto.

33d78413-799f-4e6e-a79d-cb1678f30a02

6835dc97-6488-47a8-9159-595ff783efa5