672 horas de datos de voz de reuniones multipersona recogidos multicanal

Reunión

672 horas de datos de voz de reuniones multipersona recogidos multicanal, el contenido cubre escenarios de reuniones de 3 a 6 personas, recogidos en varios entornos de sala de reuniones, reflejando situaciones de interacción en reuniones reales. Este conjunto de datos anota múltiples atributos como el contenido de texto, identidad del hablante, género y ubicación, etc., con alta precisión (precisión de oración mayor o igual al 97%), fuerte facilidad de uso, proporcionando recursos de alta calidad para investigación y aplicación relacionados con el reconocimiento de voz y la identificación de voz, y ha sido verificado por múltiples empresas de IA: ayuda a mejorar la robustez de los modelos en escenarios de reuniones complejas. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Este Dataset es de pago para uso comercial, investigación y más. Los Datasets licenciados y listos para usar ayudan a impulsar proyectos de IA.

Especificaciones

Formato

1) Matriz de 16 micrófonos de campo lejano: 48 kHz, 16 bits, wav, 16 canales; 2) Matriz de 8 micrófonos de campo lejano: 48 kHz, 16 bits, wav, 8 canales; 3) Micrófono de alta fidelidad de campo lejano: 48 kHz, 16 bits, wav, mono; 4) Móvil de campo cercano: 16 kHz, 16 bits, wav, mono

Entorno de grabación

Cuatro salas de reuniones de diferentes áreas, cada área incluye tres habitaciones diferentes

Contenido de la grabación

Conversaciones de reunión simulando escenarios reales de reuniones

Equipos

Matriz de 16 micrófonos, matriz de 8 micrófonos, micrófonos de alta fidelidad, teléfonos móviles

Idioma

Mandarín

Características de la anotación

Anotación de texto, anotación de identidad del hablante, anotación de género, anotación de ubicación

Escenarios de aplicación

Reconocimiento de voz; reconocimiento de voz del hablante

Precisión

Precisión de oración no inferior al 97%

Dataset recomendado

Biblioteca de síntesis de timbre promedio de narración con alta expresividad en chino de 4 personas

Biblioteca de síntesis de timbre promedio de narración con alta expresividad en chino de 4 personas, recogida por actores de voz profesionales, dado un libro, los hablantes leen en un estilo de narración con alta expresividad.

Alta expresividad Narración TTS Chino

Biblioteca de síntesis de timbre promedio multiestilo y multiemocional de 4 personas

Biblioteca de síntesis de timbre promedio multiestilo y multiemocional de 4 personas, recogida por actores de voz profesionales. Los estilos incluyen 4 tipos: jefa eficiente, príncipe franco, criada ágil y anciana bondadosa; las emociones incluyen desdén, ira, alegría, preocupación, sorpresa, jadeo de miedo, resoplido (desdén), simpatía, risa, actividad mental, seriedad, disgusto, duda y neutral.

Corpus de Síntesis TTS Mandarín Chino Multiestilo Multiemocional

Conjunto de datos para competición de voz de diálogo multilingüe Interspeech2025-MLC-SLM

El contexto del conjunto de datos para la competición de voz de diálogo multilingüe Interspeech2025-MLC-SLM es que Datatang organizó la competición de voz de diálogo multilingüe MLC-SLM en 2025, el conjunto de datos proviene de quince conjuntos de datos de voz de diálogo propios de Datatang. Los datos tienen alta precisión y fuerte facilidad de uso, están diseñados específicamente para superar los cuellos de botella tecnológicos del reconocimiento de voz multilingüe y la comprensión de contexto largo, capturan de manera realista escenarios de interacción complejos como la superposición de hablantes e interrupciones improvisadas, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de audio de taller conjunto de datos MLC-SLM datos de reconocimiento de voz ASR

119 horas de datos de voz de lectura en griego recogidos por móvil

Datos de voz en griego de lectura (móvil), basados en guiones dados para lectura y grabación simulada, con un total de 95 grabadores, los grabadores son de Grecia, el entorno de grabación es silencioso y sin eco. El contenido de la grabación es extenso, aproximadamente 1000 oraciones por persona. El texto ha sido corregido manualmente, con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de monólogo guionizado en griego conjunto de datos de voz en griego conjunto de datos de audio en griego datos de voz en griego datos de síntesis de voz en griego

280 horas de datos de voz de lectura en noruego recogidos por móvil

Datos de voz en noruego de lectura (móvil), basados en guiones dados para lectura y grabación simulada, con un total de 157 grabadores, los grabadores son de Noruega, el entorno de grabación es silencioso y sin eco. El contenido de la grabación es extenso, aproximadamente 1000 oraciones por persona. El texto ha sido corregido manualmente, con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de monólogo guionizado en noruego conjunto de datos de voz en noruego datos de síntesis de voz en noruego corpus NLP para noruego datos de voz en noruego conjunto de datos de audio en noruego

581 horas de datos de voz coloquial en griego

Datos de voz coloquial en griego, con contenido que cubre áreas generales como medios sociales, diálogos, transmisiones en vivo, etc., reflejando situaciones de interacción del mundo real. Este conjunto de datos anota múltiples atributos como el contenido de texto, identidad y género del hablante, etc., grabados por múltiples rumanos de diferentes regiones y antecedentes culturales, con alta precisión y facilidad de uso, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de voz en griego datos de entrenamiento ASR para griego corpus de conversación en griego voz monólogo en griego conjunto de datos de reconocimiento de voz en griego datos de voz a texto en griego conjunto de datos de voz en griego conjunto de datos de transcripción en griego

600 horas de datos de voz coloquial en noruego

Datos de voz coloquial en noruego, con contenido que cubre áreas generales como medios sociales, diálogos, transmisiones en vivo, etc., reflejando situaciones de interacción del mundo real. Este conjunto de datos anota múltiples atributos como el contenido de texto, identidad y género del hablante, etc., grabados por múltiples rumanos de diferentes regiones y antecedentes culturales, con alta precisión y facilidad de uso, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

conjunto de datos de voz en noruego datos de entrenamiento ASR para noruego corpus de conversación en noruego voz monólogo en noruego conjunto de datos de reconocimiento de voz en noruego datos de voz a texto en noruego conjunto de datos de voz en noruego datos de voz multilingües conjunto de datos de transcripción en noruego

500 horas de datos de voz de lectura en tamil recogidos por móvil

Datos de voz en tamil de lectura (móvil), basados en guiones dados para lectura y grabación simulada, con contenido rico. Este conjunto de datos anota múltiples atributos como el contenido de texto, etc., con 479 personas locales participando en la recolección, con alta precisión, proporcionando recursos ricos para investigación y aplicaciones relacionadas con el reconocimiento de voz, y ha sido verificado por múltiples empresas de IA: ayuda a que los modelos se desempeñen mejor frente a la diversidad del mundo real. Seguimos estrictamente las regulaciones de protección de datos y privacidad, garantizando la protección de la privacidad y los derechos legítimos de los usuarios durante la recolección, almacenamiento y uso de datos, y todos los datos cumplen con GDPR, CCPA y PIPL.

Conjunto de datos de voz en tamil conjunto de datos de audio en tamil conjunto de datos de idioma tamil conjunto de datos de monólogo en tamil corpus de voz en tamil datos ASR para tamil voz guionizada en tamil conjunto de datos de tamil por smartphone conjunto de datos de reconocimiento de voz para tamil datos de voz multilingües

672 horas de datos de voz de reuniones multipersona recogidos multicanal

Reunión

Nivel de madurez del proyecto