Fecha y Lugar:22 de agosto, Muelle 14 – Centro de Convenciones Rotterdam Ahoy
| Franja Horaria | Actividad |
|---|---|
| 8:30-9:00 | Recogida de insignias |
| 9:00-10:00 | Keynote 1: Shinji Watanabe Escalando el Reconocimiento de Habla Multilingüe: De unos pocos a miles de idiomas |
| 10:00-10:30 | el descanso para café |
| 10:30-11:00 | Resumen del desafío + Ceremonia de premios |
| 11:00-12:00 | Sesión oral: 1. Presentación de Seewo al MLC-SLM: Lecciones aprendidas de los modelos de lenguaje de razonamiento del habla, ponente: Bo Li 2. Sistema de reconocimiento de voz multilingüe Transsion para el desafío MLC-SLM 2025. Ponente: Xiaoxiao Li 3. Triple X: Un sistema de reconocimiento de voz multilingüe basado en LLM para el desafío MLC-SLM INTERSPEECH2025, Ponente: Miaomiao Gao 4. El sistema TEA-ASLP para el reconocimiento de voz conversacional multilingüe y la diarización del habla en el desafío MLC-SLM 2025, ponente: Hongfei Xue |
| 12:00-13:00 | el descanso para el almuerzo |
| 13:00-14:00 | Keynote 2: Hung-yi Lee Avances en los modelos del lenguaje hablado |
| 14:00-14:30 | Sessão Oral: 1. ILT: Entrenamiento iterativo de LoRA mediante enfoque, retroalimentación y corrección para el reconocimiento de habla multilingüe. Ponente: Qingliang Meng 2. Sistema BUT para el desafío MLC-SLM. Ponente: Alexander Polok |
| 14:30-15:00 | el descanso para café |
| 15:00-15:30 | Charla invitada 1: Ming Li Diarización neuronal secuencia a secuencia en escenarios en línea y multimodales |
| 15:30-16:00 | Charla invitada 2: Shuai Wang Una única incrustación no sirve para todos: Replanteando el modelado del hablante para diversas aplicaciones de habla |
| 16:00-16:30 | Charla invitada 3: Pan Pan Más allá de la escasez de datos: Ingeniería de flujos de datos priorizando la calidad en diferentes etapas de capacitación |
| 16:30-17:30 | Carteles |
¿Te perdiste las sesiones en vivo? Ya puedes ponerte ahora con las inspiradoras charlas del Taller Desafío MLC-SLM. Los enlaces de reproducción se proporcionan a continuación.
Shinji Watanabe (Universidad Carnegie Mellon)
Topic: Escalabilidad del reconocimiento de voz multilingüe: De unos pocos a miles de idiomas
Shuai Wang (Universidad de Nanjing)
Topic: Una única incrustación no sirve para todos: Replanteando el modelado del hablante para diversas aplicaciones de habla
Pan Pan (Director de Negocios de IA, Nexdata)
Topic: Más allá de la escasez de datos: Diseño de canales de datos de calidad prioritaria en diferentes etapas de capacitación
Síguenos en LinkedIn y YouTube para ver las últimas repeticiones y momentos destacados.
Para consultas de prensa o solicitudes de autorización, comuníquese con: [email protected]
Los modelos de lenguaje grande (LLM) han demostrado capacidades notables en una variedad de tareas posteriores y sirven como modelos de base poderosos para la comprensión y generación del lenguaje.Recientemente, ha habido un interés significativo en aplicar los LLM a tareas de procesamiento de voz y audio, incluido el Reconocimiento Automático de Habla (ASR), los Subtítulos de Audio y áreas emergentes como los Modelos de Diálogo Hablado.
Sin embargo, el desarrollo de modelos de diálogo hablado sólidos basados en LLM depende en gran medida de datos de conversaciones del mundo real, que encapsulan la complejidad de la comunicación humana, incluidas las pausas naturales, las interrupciones, las superposiciones de hablantes y los diversos estilos de conversación.La escasez de tales datos, especialmente en contextos multilingües, plantea un desafío importante para el avance en este campo.
La importancia del habla conversacional en el mundo real se extiende más allá del avance tecnológico-es esencial para construir sistemas de IA que puedan comprender y responder de forma natural en entornos multilingües, dinámicos y ricos en contexto. Esto es especialmente crucial para los sistemas de interacción humano-IA de próxima generación, donde el diálogo hablado sirve como modo principal de comunicación.
Por lo tanto, este desafío y taller tienen como objetivo cerrar la brecha al albergar el desafío de construir modelos de lenguaje de habla conversacional multilingüe (MLC-SLM) y publicar un conjunto de datos de habla conversacional multilingüe del mundo real.
El desafío consta de dos tareas, ambas requieren que los participantes exploren el desarrollo de los modelos de lenguaje del habla (MLH):
Tarea I: Reconocimiento de Habla Conversacional Multilingüe
Objetivo: Desarrollar un modelo ASR multilingüe basado en LLM.
Los participantes recibirán segmentación de oráculo y etiquetas de interlocutor para cada conversación.
Esta tarea se centra en optimizar la precisión del reconocimiento en un entorno de conversación multilingüe.
Tarea II: Diarización y reconocimiento del habla conversacional multilingüe
Objetivo: Desarrollar un sistema tanto para la diarización del hablante (identificar quién habla y cuándo) como para el reconocimiento (transcribir el habla a texto).
No se proporcionará información previa ni de oráculo durante la evaluación (por ejemplo, no se permitirán enunciados presegmentados ni etiquetas de oradores).
Se fomentan los sistemas basados en tuberías y de extremo a extremo, lo que proporciona flexibilidad en el diseño y la implementación del sistema.
Para la Tarea I, se evaluará el rendimiento del sistema utilizando la tasa de error de palabras (WER) o la tasa de error de caracteres (CER) en diferentes idiomas.
Para la Tarea II, el desempeño se evaluará en función de la tasa de error de diarización (DER) y la permutación mínima concatenada WER o CER, denominada tcpWER o tcpCER. El DER se utiliza para determinar la mejor permutación de ID de hablante entre los resultados de anotación de oráculo y diarización. A continuación, se concatenarán los resultados de reconocimiento y las referencias pertenecientes al mismo hablante dentro de una grabación para calcular el tcpWER o el tcpCER. Todos los envíos se clasificarán según el tcpWER o el tcpCER.
10 de marzo de 2025: Apertura de inscripciones
15 de marzo de 2025: Publicación de datos de capacitación
1 de abril de 2025: Lanzamiento del conjunto de desarrollo y del sistema base.
15 de mayo de 2025: Lanzamiento del conjunto de evaluación y apertura de la clasificación.
30 de mayo de 2025: Congelación de la clasificación y apertura del portal de envío de trabajos (sistema CMT)
15 de junio de 2025: Fecha límite para el envío de trabajos
1 de julio de 2025: Notificación de aceptación
22 de agosto de 2025: Fecha del taller
El conjunto de entrenamiento (Train) incluye aproximadamente 11 idiomas: inglés (en), francés (fr), alemán (de), italiano (it), portugués (pt), español (es), japonés (jp), coreano (ko), ruso (ru), tailandés (th), vietnamita (vi).
Cada grabación consta de una conversación de dos hablantes sobre temas asignados al azar.
Las conversaciones son naturales y fluidas, y los hablantes participan en diálogos significativos sobre cada tema.
Grabado en entornos interiores silenciosos utilizando dispositivos como iPhones.
Cada grabación proporcionará la segmentación del oráculo y la etiqueta del hablante para el desarrollo de sistemas de reconocimiento de habla y diarización de hablantes.
Tanto la Tarea I como la Tarea II comparten el mismo conjunto de entrenamiento.
El dataset en inglés comprende aproximadamente 500 horas de grabaciones de diversas regiones, incluyendo el inglés británico, estadounidense, australiano, indio y filipino. Otros idiomas aportan alrededor de 100 horas cada uno, lo que da un total aproximado de 1500 horas de datos de habla conversacional multilingüe.
Este dataset está diseñado para proporcionar un recurso valioso para entrenar y evaluar modelos de lenguaje conversacional multilingüe (MLC-SLM), abordando los desafíos de la diversidad lingüística, la variabilidad del hablante y la comprensión contextual.
| Idioma | Volumen de datos (h) | Clasificación del idioma | Frecuencia de muestreo | Descripción |
|---|---|---|---|---|
| Inglés | 500 | Abarca 5 acentos diferentes de inglés, hablantes de Estados Unidos, Reino Unido, Filipinas, Australia e India. Diversos géneros y edades, con un estilo de conversación natural. La tasa de error de palabras es inferior al 2%. | ||
| 100 | Inglés americano | 16K | ||
| 100 | Inglés británico | 16K | ||
| 100 | Inglés filipino | 16K | ||
| 100 | Inglés australiano | 16K | ||
| 100 | Inglés indio | 16K | ||
| Francés | 100 | 16k | Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%. | |
| Alemán | 100 | 16k | Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%. | |
| Italiano | 100 | 16k | Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%. | |
| Japonés | 100 | 16k | Grabado con un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error en las oraciones es inferior al 5%. | |
| Coreano | 100 | 16k | Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error en las oraciones es inferior al 5%. | |
| Portugués (Europa) | 100 | 16k | Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%. | |
| Ruso | 100 | 16k | Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%. | |
| Español (España) | 100 | 16k | Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%. | |
| Tailandés | 100 | 16k | Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 3%. | |
| Vietnamita | 100 | 16k | Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%. |
El conjunto de desarrollo (Dev) tiene la misma configuración que el conjunto de entrenamiento, pero contiene aproximadamente 4 horas de grabaciones para cada idioma. Tanto la Tarea I como la Tarea II comparten el mismo conjunto de desarrollo.
Se emplean diferentes conjuntos de evaluación para cada tarea, denominados Eval_1 y Eval_2. Específicamente, Eval_1 incluye marcas de tiempo de oráculo y etiquetas de hablante, que se evalúan mediante WER/CER. Eval_2 no proporciona marcas de tiempo ni etiquetas de hablante, lo que requiere un sistema de diarización de hablantes (SD) para segmentar las grabaciones más largas antes del reconocimiento.Los participantes pueden acceder al dataset firmando el acuerdo de uso de datos y completando el formulario de registro. Tras el envío, recibirán el enlace de descarga de datos en su correo electrónico.
Puedes acceder y descargar el dataset de evaluación de código abierto a través del enlace que se proporciona a continuación. Tenga en cuenta que se requiere un breve formulario de registro antes de la descarga. Una vez aprobada su solicitud, le enviaremos el enlace de descarga del conjunto de datos por correo electrónico en un plazo de 7 días.
Si utiliza este dataset en su investigación personal o académica, cite la fuente como corresponda.
[ Formulario de registro- Solicitar Dataset Patrocinado - Descargar Dataset de evaluación]
Todos los participantes deben cumplir con las siguientes reglas para ser elegibles para el desafío.
Además de las descripciones de los sistemas de desafío, se anima a los participantes a presentar trabajos de investigación que presenten hallazgos innovadores, casos prácticos e ideas innovadoras. Los temas de interés incluyen, entre otros:
Los participantes registrados tendrán acceso a los datasets de entrenamiento y prueba. Deberán firmar un acuerdo de uso de datos (véase más abajo), aceptar la confidencialidad y cumplir con el acuerdo de protección de datos. Los datasets se utilizarán exclusivamente para el desafío del taller, y su redistribución o cualquier otro uso está estrictamente prohibido. Es responsabilidad del participante proteger los datos del acceso no autorizado.
Para participar, es necesario registrarse.Por favor suba el acuerdo de uso de datos firmado y complete el formulario de inscripción . El reto comienza el 10 de marzo de 2025.
Para cualquier otra información sobre el registro, envíe un correo electrónico a: [email protected]
Correo electrónico oficial:[email protected]
Flojo: https://join.slack.com/t/mlc-slm-challenge/shared_invite/zt-314nfsmhz-QjOJjhjK3OHYUtJyBRtPxA
1. Trabajos de desafío:
a. Los participantes deben presentar UN documento breve de descripción técnica (incluso si el equipo participó en ambas tareas).
b. Extensión: 2-4 páginas de contenido + 1 página de referencias.
c. Requisitos de contenido:
i.Descripciones claras del sistema para garantizar la exactitud del envío y el cumplimiento de las normas.
ii.Los detalles de reproducibilidad incluyen datasets y modelos de código abierto utilizados, estrategias de aumento de datos, arquitecturas de modelos, configuraciones de entrenamiento, etc.
iii. Los estudios de ablación demuestran la eficacia del método.
d. Se espera que todos los participantes del desafío presenten una charla o un póster en el taller.
2. Trabajos no relacionados con el reto:
a. Extensión: 4 páginas de contenido + 1 página de referencias.
b. Temas: Incluir, entre otros, los temas mencionados en el sitio web del reto.
3. Kit de autor:
Utilice el kit de autor LaTeX de Interspeech 2022 (https://www.interspeech2022.org/files/IS2022_paper_kit.zip) para todos los envíos. Tenga en cuenta que estamos utilizando el kit de autor de Interspeech 2022 para continuar con la revisión ciega simple.
4. Portal de envío de trabajos
a.Envíe su trabajo a través del sistema de conferencias de CMT.
b. El servicio Microsoft CMT se utilizó para gestionar el proceso de revisión por pares de esta conferencia. Este servicio fue proporcionado gratuitamente por Microsoft y ellos asumieron todos los gastos, incluidos los de los servicios en la nube de Azure, así como los de desarrollo y soporte de software.
FONDO TOTAL DEL PREMIO: $20,000, patrocinado por Huawei Technologies.
Premios para los equipos mejor clasificados en esta competición (cada tarea):
Tarea I del MLC-SLM
| Nombre de usuario | WER/CER | No. | Nombre del equipo | Institución |
|---|---|---|---|---|
| tenp1 | 9.6 | 1 | TENP | Laboratorio de audio etéreo de Tencent |
| dieciséis años | 9.67 | 2 | dieciséis años | Academia China de Ciencias |
| t-asr | 9.83 | 3 | T-ASR | SHENZHEN TRANSSION HOLDINGS CO., LTD. |
| megaais | 10.08 | 4 | MegaAIS | Megatronix (Pekín) Tecnología Co., Ltd. |
| maxiaoai | 10.56 | 5 | MaXiaoAl | Mashang Conumer Finance Co.,Ltd.(MSCF) |
| ntu_speechlab | 10.58 | 6 | NTU-Speechlab | Nanyang Tecnología Co., Ltd. |
| cheryfsai | 11.27 | 7 | Cheryfs-AI | Chery HuiYin Motor Finance Service Co., Ltd. |
| seewo | 11.57 | 8 | seewo | Guangzhou Shirui Electronics Co., Ltd. |
| daominhtri | 11.71 | 9 | Pastel de VPBank | Pastel de VPBank |
| Quizás | 11.76 | 10 | Mayo | Universidad Normal de Shanghái |
Tarea II del MLC-SLM
| Nombre de usuario | tcpWER/tcpCER | No. | Nombre del equipo | Institución |
|---|---|---|---|---|
| megaais | 16.53 | 1 | MegaAIS | Megatronix (Pekín) Tecnología Co., Ltd. |
| tenp1 | 17.49 | 2 | TENP | Laboratorio de audio etéreo de Tencent |
| seewo | 17.67 | 3 | seewo | Guangzhou Shirui Electronics Co., Ltd. |
| duke_kunshan | 18.08 | 4 | DKU | Universidad Duke Kunshan |
| dieciséis años | 19.27 | 5 | dieciséis años | Academia China de Ciencias |
| cheryfsai | 26.3 | 6 | Cheryfs-AI | Chery HuiYin Motor Finance Service Co., Ltd. |
| saengthong | 27.25 | 7 | ST-ShinozakiLab | Instituto de Ciencias de Tokio |
| fosafer | 31.68 | 8 | INVESTIGACIÓN FOSAFER | PEKÍN Fosafer Tecnología de la Información Co., Ltd. |
| voicecode | 55.96 | 9 | VoiceCode | VOICECODE TECHNOLOGY PTE.LTD. |
| 517517 | 59.4 | 10 | INFX | Universidad Zhejiang |
Nota: Solo se listan los 10 mejores participantes de cada prueba. Para cualquier consulta sobre los resultados de los equipos, contacte con el comité organizador.
Muelle 14 del Centro de Convenciones Rotterdam Ahoy, Róterdam, Países Bajos
Cuota de inscripción: 50 €
Lei Xie, Profesor, Universidad Politécnica del Noroeste (China)
Shinji Watanabe, profesor asociado, Universidad Carnegie Mellon (EE. UU.)
Eng Siong Chng, Profesor, Universidad Tecnológica de Nanyang (Singapur)
Junlan Feng, miembro del IEEE y científico jefe de China Mobile (China)
Shuai Wang, Científico de investigación, Nanjing University (China)
Longshuai Xiao, Huawei Technologies (China)
Khalid Choukri, Secretario General de la Asociación Europea de Recursos Lingüísticos (Francia)
Qiangze Feng, cofundador y científico de datos, Nexdata (EE. UU.)
Daliang Wang, científico de datos, Nexdata (EE. UU.)
Hexin Liu, investigador postdoctoral, Universidad Tecnológica de Nanyang (Singapur)
Pengcheng Guo, estudiante de PhD, Universidad Politécnica del Noroeste (China)
Bingshen Mu, estudiante de PhD, Universidad Politécnica del Noroeste (China)
Zhaokai Sun, estudiante de maestría, Universidad Politécnica del Noroeste (China)




