534 horas de datos de voz en mandarín con acento taiwanés de diálogo natural recopilados por móvil

Mandarín acentuado

Taiwanés

Diálogo espontáneo

534 horas de datos de voz de conversación natural en mandarín con acento taiwanés recopilados con móvil, grabación simulada basada en más de 30 temas comunes. Este conjunto de datos está anotado con contenido de texto, marca de tiempo de oraciones, identidad del hablante, género y otros atributos, grabados por personas de la región de Taiwán, alta precisión, proporcionan recursos ricos para investigación y aplicaciones relacionadas con reconocimiento de voz, validados por múltiples empresas de AI: ayuda a que los modelos se desempeñen bien frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y las normas de privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recopilación, almacenamiento y uso de datos, todos los datos cumplen con GDPR, CCPA, PIPL.

Este Dataset es de pago para uso comercial, investigación y más. Los Datasets licenciados y listos para usar ayudan a impulsar proyectos de IA.

Especificaciones

Formato

16 kHz, 16 bit, wav sin comprimir, monoaural

Entorno de grabación

Interior relativamente silencioso, sin eco

Contenido de grabación

Dada una lista de temas, el grabador selecciona una serie de temas familiares para garantizar un flujo natural del diálogo, desarrolla un diálogo en torno a cada tema y lo graba.

Personal

Un total de 480 personas de Taiwán, con una proporción equilibrada de hombres y mujeres

Características de etiquetado

Interceptar frases válidas para etiquetarlas; los resultados del etiquetado incluyen los puntos inicial y final de las frases válidas, la identificación del hablante y el contenido del texto; etiquetado del ruido.

País

China

Idioma

Mandarín

Escenarios de aplicación

Reconocimiento de voz; reconocimiento de huellas vocales

Precisión

Tasa de exactitud por frase 95%

Dataset recomendado

Conjunto de datos para competición de voz de diálogo multilingüe Interspeech2025-MLC-SLM

El contexto del conjunto de datos para la competición de voz de diálogo multilingüe Interspeech2025-MLC-SLM es que Datatang organizó la competición de voz de diálogo multilingüe MLC-SLM en 2025, el conjunto de datos proviene de quince conjuntos de datos de voz de diálogo propios de Datatang. Los datos tienen alta precisión y fuerte facilidad de uso, están diseñados específicamente para superar los cuellos de botella tecnológicos del reconocimiento de voz multilingüe y la comprensión de contexto largo, capturan de manera realista escenarios de interacción complejos como la superposición de hablantes e interrupciones improvisadas, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de audio de taller conjunto de datos MLC-SLM datos de reconocimiento de voz ASR

581 horas de datos de voz coloquial en griego

Datos de voz coloquial en griego, con contenido que cubre áreas generales como medios sociales, diálogos, transmisiones en vivo, etc., reflejando situaciones de interacción del mundo real. Este conjunto de datos anota múltiples atributos como el contenido de texto, identidad y género del hablante, etc., grabados por múltiples rumanos de diferentes regiones y antecedentes culturales, con alta precisión y facilidad de uso, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de voz en griego datos de entrenamiento ASR para griego corpus de conversación en griego voz monólogo en griego conjunto de datos de reconocimiento de voz en griego datos de voz a texto en griego conjunto de datos de voz en griego conjunto de datos de transcripción en griego

600 horas de datos de voz coloquial en noruego

Datos de voz coloquial en noruego, con contenido que cubre áreas generales como medios sociales, diálogos, transmisiones en vivo, etc., reflejando situaciones de interacción del mundo real. Este conjunto de datos anota múltiples atributos como el contenido de texto, identidad y género del hablante, etc., grabados por múltiples rumanos de diferentes regiones y antecedentes culturales, con alta precisión y facilidad de uso, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

conjunto de datos de voz en noruego datos de entrenamiento ASR para noruego corpus de conversación en noruego voz monólogo en noruego conjunto de datos de reconocimiento de voz en noruego datos de voz a texto en noruego conjunto de datos de voz en noruego datos de voz multilingües conjunto de datos de transcripción en noruego

Datos de voz de diálogo guionizado en gujarati

Datos de voz de diálogo guionizado en gujarati, basados en guiones dados para simular diálogos y grabaciones, cubriendo múltiples dominios con contenido rico. Este conjunto de datos anota múltiples atributos como el contenido de texto, etc., con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de audio en gujarati conjunto de datos ASR en gujarati conjunto de datos de voz en gujarati conjunto de datos TTS en gujarati

600 horas de datos de voz de conversación natural en inglés filipino multipista recogidos por móvil

Datos de voz de conversación natural en inglés filipino multipista recogidos por móvil, basados en temas comunes para grabación simulada. Este conjunto de datos anota múltiples atributos como el contenido de texto, marcas de tiempo por oración, identidad del hablante, género, etc., grabados por personas nativas filipinas de diferentes regiones y antecedentes culturales, con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de IA para diálogo datos de entrenamiento de reconocimiento de voz conjunto de datos de audio multicanal datos de voz de smartphone conjunto de datos de voz espontánea conjunto de datos de voz multipista conjunto de datos de voz en inglés filipino conjunto de datos de voz full-duplex

600 horas de datos de voz de conversación natural en inglés americano multipista recogidos por móvil

Datos de voz de conversación natural en inglés americano multipista recogidos por móvil, basados en temas comunes para grabación simulada. Este conjunto de datos anota múltiples atributos como el contenido de texto, marcas de tiempo por oración, identidad del hablante, género, etc., grabados por personas nativas estadounidenses de diferentes regiones y antecedentes culturales, con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de voz en inglés americano conjunto de datos de voz multipista conjunto de datos de diálogo full-duplex conjunto de datos de voz espontánea datos de voz de smartphone conjunto de datos de audio multicanal datos de entrenamiento de reconocimiento de voz conjunto de datos de IA para diálogo

Datos de voz coloquial en español mexicano

Datos de voz coloquial en español mexicano, con contenido que cubre áreas generales como diálogos, medios sociales, programas de variedades, etc., reflejando situaciones de interacción del mundo real. Este conjunto de datos anota múltiples atributos como el contenido de texto, identidad y género del hablante, etc., con alta precisión y facilidad de uso, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

México Español Conversación Casual ASR

460 horas de datos de voz en sueco de habla coloquial

Datos de voz en sueco_Coloquial. Refleja situaciones de interacción del mundo real. Este conjunto de datos está anotado con contenido de texto, identidad y género del hablante, entre otros atributos, grabado por suecos nativos de diferentes regiones y antecedentes culturales. Alta precisión, fuerte usabilidad, proporciona recursos abundantes para la investigación y aplicaciones relacionadas con el reconocimiento de voz, ayudando a que los modelos demuestren un excelente rendimiento frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y las normas de privacidad, garantizando la protección de la privacidad y los derechos e intereses legítimos de los usuarios durante el proceso de recopilación, almacenamiento y uso de datos. Todos los datos cumplen con GDPR, CCPA, PIPL.

Sueco espontáneo ASR

534 horas de datos de voz en mandarín con acento taiwanés de diálogo natural recopilados por móvil

Mandarín acentuado Taiwanés Diálogo espontáneo

Nivel de madurez del proyecto

Mandarín acentuado

Taiwanés

Diálogo espontáneo