3000 horas de datos de voz de conversación natural en mandarín full-duplex

Full-Duplex

Diálogo

Mandarín

Datos de voz de conversación natural en mandarín full-duplex, basados en diálogos de temas comunes grabados. Este conjunto de datos anota múltiples atributos como el contenido de texto, marcas de tiempo por oración, identidad del hablante, género, etc., con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Este Dataset es de pago para uso comercial, investigación y más. Los Datasets licenciados y listos para usar ayudan a impulsar proyectos de IA.

Especificaciones

Formato

Micrófono - 48 kHz, 16 bits, wav sin comprimir, mono; Móvil - 24 kHz, 16 bits, wav sin comprimir, mono.

Entorno de grabación

Interior relativamente silencioso, sin eco.

Contenido de la grabación

Se proporciona una lista de temas, los locutores seleccionan múltiples temas que les sean familiares para garantizar una conversación fluida y natural, desarrollando y grabando un diálogo en torno a cada tema.

Personal

Aproximadamente 3600 locutores, proporción equilibrada entre hombres y mujeres, cubriendo múltiples grupos de edad.

Características de la anotación

Se anota el contenido del texto, la explicación en mandarín, los puntos de tiempo de inicio y fin de las oraciones válidas, y la identificación del hablante.

Equipos

Tarjeta de sonido + micrófono de alta fidelidad / teléfono móvil.

Idioma

Mandarín

Precisión

Precisión de carácter 99%.

Escenarios de aplicación

Reconocimiento de voz, reconocimiento de voz del hablante.

Dataset recomendado

Conjunto de datos para competición de voz de diálogo multilingüe Interspeech2025-MLC-SLM

El contexto del conjunto de datos para la competición de voz de diálogo multilingüe Interspeech2025-MLC-SLM es que Datatang organizó la competición de voz de diálogo multilingüe MLC-SLM en 2025, el conjunto de datos proviene de quince conjuntos de datos de voz de diálogo propios de Datatang. Los datos tienen alta precisión y fuerte facilidad de uso, están diseñados específicamente para superar los cuellos de botella tecnológicos del reconocimiento de voz multilingüe y la comprensión de contexto largo, capturan de manera realista escenarios de interacción complejos como la superposición de hablantes e interrupciones improvisadas, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de audio de taller conjunto de datos MLC-SLM datos de reconocimiento de voz ASR

581 horas de datos de voz coloquial en griego

Datos de voz coloquial en griego, con contenido que cubre áreas generales como medios sociales, diálogos, transmisiones en vivo, etc., reflejando situaciones de interacción del mundo real. Este conjunto de datos anota múltiples atributos como el contenido de texto, identidad y género del hablante, etc., grabados por múltiples rumanos de diferentes regiones y antecedentes culturales, con alta precisión y facilidad de uso, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de voz en griego datos de entrenamiento ASR para griego corpus de conversación en griego voz monólogo en griego conjunto de datos de reconocimiento de voz en griego datos de voz a texto en griego conjunto de datos de voz en griego conjunto de datos de transcripción en griego

600 horas de datos de voz coloquial en noruego

Datos de voz coloquial en noruego, con contenido que cubre áreas generales como medios sociales, diálogos, transmisiones en vivo, etc., reflejando situaciones de interacción del mundo real. Este conjunto de datos anota múltiples atributos como el contenido de texto, identidad y género del hablante, etc., grabados por múltiples rumanos de diferentes regiones y antecedentes culturales, con alta precisión y facilidad de uso, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

conjunto de datos de voz en noruego datos de entrenamiento ASR para noruego corpus de conversación en noruego voz monólogo en noruego conjunto de datos de reconocimiento de voz en noruego datos de voz a texto en noruego conjunto de datos de voz en noruego datos de voz multilingües conjunto de datos de transcripción en noruego

Datos de voz de diálogo guionizado en gujarati

Datos de voz de diálogo guionizado en gujarati, basados en guiones dados para simular diálogos y grabaciones, cubriendo múltiples dominios con contenido rico. Este conjunto de datos anota múltiples atributos como el contenido de texto, etc., con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de audio en gujarati conjunto de datos ASR en gujarati conjunto de datos de voz en gujarati conjunto de datos TTS en gujarati

600 horas de datos de voz de conversación natural en inglés filipino multipista recogidos por móvil

Datos de voz de conversación natural en inglés filipino multipista recogidos por móvil, basados en temas comunes para grabación simulada. Este conjunto de datos anota múltiples atributos como el contenido de texto, marcas de tiempo por oración, identidad del hablante, género, etc., grabados por personas nativas filipinas de diferentes regiones y antecedentes culturales, con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de IA para diálogo datos de entrenamiento de reconocimiento de voz conjunto de datos de audio multicanal datos de voz de smartphone conjunto de datos de voz espontánea conjunto de datos de voz multipista conjunto de datos de voz en inglés filipino conjunto de datos de voz full-duplex

600 horas de datos de voz de conversación natural en inglés americano multipista recogidos por móvil

Datos de voz de conversación natural en inglés americano multipista recogidos por móvil, basados en temas comunes para grabación simulada. Este conjunto de datos anota múltiples atributos como el contenido de texto, marcas de tiempo por oración, identidad del hablante, género, etc., grabados por personas nativas estadounidenses de diferentes regiones y antecedentes culturales, con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de voz en inglés americano conjunto de datos de voz multipista conjunto de datos de diálogo full-duplex conjunto de datos de voz espontánea datos de voz de smartphone conjunto de datos de audio multicanal datos de entrenamiento de reconocimiento de voz conjunto de datos de IA para diálogo

500 horas de datos de voz de conversación natural en dialecto de Jinan (con anotación bilingüe) recogidos por móvil

Datos de voz en dialecto de Jinan de conversación (móvil), donde los grabadores conversan libremente y se graban. Este conjunto de datos anota múltiples atributos como el contenido de texto, marcas de tiempo por oración, identidad del hablante, género, etc., grabados por usuarios nativos del dialecto, con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Dialecto Conversación

Datos de voz coloquial en español mexicano

Datos de voz coloquial en español mexicano, con contenido que cubre áreas generales como diálogos, medios sociales, programas de variedades, etc., reflejando situaciones de interacción del mundo real. Este conjunto de datos anota múltiples atributos como el contenido de texto, identidad y género del hablante, etc., con alta precisión y facilidad de uso, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

México Español Conversación Casual ASR

3000 horas de datos de voz de conversación natural en mandarín full-duplex

Full-Duplex Diálogo Mandarín

Nivel de madurez del proyecto

Full-Duplex

Diálogo

Mandarín