en

Please fill in your name

Mobile phone format error

Ingrese el teléfono

Introduzca el nombre de su empresa

Introduzca el correo electrónico de su empresa.

Ingrese los datos requeridos

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

El requisito de datos no puede ser inferior a 5 palabras y no pueden ser números puros.

Programa del Taller MLC-SLM

Fecha y Lugar:22 de agosto, Muelle 14 – Centro de Convenciones Rotterdam Ahoy

Franja Horaria Actividad
8:30-9:00
Recogida de insignias
9:00-10:00
Keynote 1: Shinji Watanabe
Escalando el Reconocimiento de Habla Multilingüe: De unos pocos a miles de idiomas
10:00-10:30
el descanso para café
10:30-11:00
Resumen del desafío + Ceremonia de premios
11:00-12:00
Sesión oral:
1. Presentación de Seewo al MLC-SLM: Lecciones aprendidas de los modelos de lenguaje de razonamiento del habla, ponente: Bo Li
2. Sistema de reconocimiento de voz multilingüe Transsion para el desafío MLC-SLM 2025. Ponente: Xiaoxiao Li
3. Triple X: Un sistema de reconocimiento de voz multilingüe basado en LLM para el desafío MLC-SLM INTERSPEECH2025, Ponente: Miaomiao Gao
4. El sistema TEA-ASLP para el reconocimiento de voz conversacional multilingüe y la diarización del habla en el desafío MLC-SLM 2025, ponente: Hongfei Xue
12:00-13:00
el descanso para el almuerzo
13:00-14:00
Keynote 2: Hung-yi Lee
Avances en los modelos del lenguaje hablado
14:00-14:30
Sessão Oral:
1. ILT: Entrenamiento iterativo de LoRA mediante enfoque, retroalimentación y corrección para el reconocimiento de habla multilingüe. Ponente: Qingliang Meng
2. Sistema BUT para el desafío MLC-SLM. Ponente: Alexander Polok
14:30-15:00
el descanso para café
15:00-15:30
Charla invitada 1: Ming Li
Diarización neuronal secuencia a secuencia en escenarios en línea y multimodales
15:30-16:00
Charla invitada 2: Shuai Wang
Una única incrustación no sirve para todos: Replanteando el modelado del hablante para diversas aplicaciones de habla
16:00-16:30
Charla invitada 3: Pan Pan
Más allá de la escasez de datos: Ingeniería de flujos de datos priorizando la calidad en diferentes etapas de capacitación
16:30-17:30
Carteles
Canales de inscripción al taller:Inscripción oficial a través de Interspeech: (seleccione Taller sobre el modelo multilingüe de conversación habla-lenguaje durante tu inscripción)Haga clic en el enlace
Canal de Registro en Sitio: Haz clic en el enlace
Cuota de inscripción: 50€Los participantes inscritos recibirán pausas para café y un almuerzo el día del taller.
Nota: Para los participantes que se inscriban a través del canal presencial, el pago deberá realizarse en efectivo en el lugar del evento.
Keynote 1
Shinji Watanabe, profesor asociado de la, Universidad Carnegie Mellon
Escalando el reconocimiento de habla multilingüe: De unos pocos a miles de idiomas
Shinji Watanabe es profesor asociado en la Universidad Carnegie Mellon, Pittsburgh, PA. Obtuvo su B.S., M.S., and Ph.D.(Dr. Eng.) en la Universidad de Waseda, Tokio, Japón. Fue investigador en NTT Communication Science Laboratories, Kioto, Japón, de 2001 a 2011.académico visitante en el Instituto de Tecnología de Georgia, Atlanta, GA, en 2009, y científico investigador principal sénior en Mitsubishi Electric Research Laboratories (MERL), Cambridge, MA, EE. UU., de 2012 a 2017.Antes de la Universidad Carnegie Mellon, fue profesor asociado de investigación en la Universidad Johns Hopkins, Baltimore, Maryland, EE. UU., de 2017 a 2020. Sus intereses de investigación incluyen el reconocimiento automático de habla, la mejora del habla, la comprensión del lenguaje hablado y el aprendizaje automático para el procesamiento del habla y el lenguaje.Ha publicado más de 500 artículos en revistas y conferencias revisadas por pares y ha recibido varios premios, incluido el premio al mejor artículo de ISCA Interspeech en 2024.Es editor sénior de área de las Transacciones IEEE sobre Procesamiento de Audio, Habla y Lenguaje. Ha sido miembro de varios comités técnicos, entre ellos el Comité Técnico de Habla, Lenguaje y Audio (SLA) de APSIPA, el Comité Técnico de Habla y Lenguaje (SLTC) de la Sociedad de Procesamiento de Señales del IEEE y el Comité Técnico de Aprendizaje Automático para el Procesamiento de Señales (MLSP). Es miembro del IEEE y de la ISCA.
Keynote 2
Hung-yi Lee, profesor de la, Universidad Nacional de Taiwán
Avances en los modelos del lenguaje hablado
Hung-yi Lee es profesor del Departamento de Ingeniería Eléctrica de la Universidad Nacional de Taiwán (NTU), con un nombramiento conjunto en el Departamento de Ciencias de la Computación & Ingeniería de la Información de la universidad.Su investigación reciente se centra en el desarrollo de tecnología que pueda reducir la necesidad de datos anotados para el procesamiento del habla (incluida la conversión de habla y el reconocimiento de voz) y el procesamiento del lenguaje natural (incluido el resumen abstracto y la respuesta a preguntas).Ganó la beca de aprendizaje profundo de Salesforce Research en 2019, el premio de investigación de AWS ML en 2020, el premio al joven ingeniero destacado del Instituto Chino de Ingeniería Eléctrica en 2018, el premio a la innovación para jóvenes académicos de la Fundación para el Avance de Becas Destacadas en 2019, premio Conmemorativo Ta-You Wu del Ministerio de Ciencia y Tecnología de Taiwán en 2019, y el 59º Premio a los Diez Jóvenes Más Destacados en Investigación & Desarrollo en Ciencia y Tecnología de Taiwán. Es propietario de un canal de YouTube que enseña tecnología de aprendizaje profundo en Marian, que tiene más de 300.000 suscriptores.
Charla invitada 1
Ming Li, profesor de la, Universidad Duke Kunshan
Diarización neuronal secuencia a secuencia en escenarios en línea y multimodales
Ming Li recibió su Ph.D. en Ingeniería Eléctrica de la Universidad del Sur de California en 2013.Actualmente es profesor de Ingeniería Electrónica e Informática en la División de Ciencias Naturales y Aplicadas e investigador científico principal en el Centro de Investigación de Innovación Digital de la Universidad Duke Kunshan.También es profesor adjunto en la Facultad de Informática de la Universidad de Wuhan. Sus intereses de investigación se centran en el procesamiento de audio, habla y lenguaje, así como en el análisis e interpretación de señales de comportamiento multimodal.Ha publicado más de 200 artículos y se ha desempeñado como miembro del comité técnico de habla y lenguaje del IEEE y del comité técnico de procesamiento de habla y lenguaje de APSIPA.Fue presidente de área en Interspeech 2016, Interspeech 2018, Interspeech 2020, SLT2022, Interspeech 2024, Interspeech 2025, ASRU 2025.Es copresidente del programa técnico en Odyssey 2022 y ASRU 2023. Es miembro editorial de IEEE Transactions on Audio, Speech and Language Processing, Computer Speech and Language y APSIPA Transactions on Signal and Information Processing.Los trabajos en coautoría con sus colegas han ganado primeros premios en los Interspeech Computational Paralinguistic Challenges 2011, 2012 y 2019, ASRU 2019 MGB-5 ADI Challenge, Interspeech 2020 y 2021 Fearless Steps Challenges, VoxSRC 2021, 2022 y 2023 Challenges, ICASSP 2022 M2MeT Challenge, IJCAI 2023 ADD challenge, ICME 2024 ChatCLR challenge y Interspeech 2024 AVSE challenge.Como coautor, ganó el premio al mejor artículo en DCOSS2009 e ISCSLP2014, así como la lista de mejores artículos en Interspeech 2024. Recibió el premio de la facultad de IBM en 2016, el premio ISCA Computer Speech and Language al mejor artículo de revista de 5 años en 2018 y el premio al logro juvenil de logros destacados en investigación científica de la educación superior china en 2020. Es miembro senior del IEEE.
Charla invitada 2
Shuai Wang, Profesor Asociado, Universidad de Nanjing
Una única incrustación no sirve para todos: Replanteando el modelado del hablante para diversas aplicaciones de voz
Shuai Wang es profesor asociado titular en la Universidad de Nanjing y profesor adjunto en la Universidad China de Hong Kong, Shenzhen (CUHK-SZ).Recibió su doctorado de la Universidad Jiao Tong de Shanghái en 2020 y su licenciatura de la Universidad Politécnica Northwestern en 2014. El Dr. Wang ha publicado más de 60 artículos sobre modelado de altavoces y ha recibido varios honores, incluida la Beca IEEE Ramaswamy en ICASSP 2018 y el primer lugar en VoxSRC 2019 y DIHARD 2019.Es el iniciador de los proyectos de código abierto WeSpeaker y WeSep, que son ampliamente adoptados tanto por el ámbito académico como por la industria.
Charla invitada 3
Pan Pan, Director de Negocios de IA, Nexdata
Más allá de la escasez de datos: Diseño de canales de datos de calidad prioritaria en diferentes etapas de capacitación
Líder visionario y arquitecto operativo en Nexdata, Pan aprovecha más de una década de experiencia en datos de IA para liderar equipos de élite en la entrega de soluciones integrales para LLM, IA Gen y modelos de IA tradicionales.Ha ejecutado con éxito 1000+ proyectos integrando la recopilación de datos de múltiples sensores a escala global, anotación impulsada por IA y una plataforma unificada que optimiza todo el flujo de datos de entrenamiento.

Repetición de las charlas del taller MLC-SLM

Charlas destacadas

¿Te perdiste las sesiones en vivo? Ya puedes ponerte ahora con las inspiradoras charlas del Taller Desafío MLC-SLM. Los enlaces de reproducción se proporcionan a continuación.

  • Shinji Watanabe (Universidad Carnegie Mellon)

    Topic: Escalabilidad del reconocimiento de voz multilingüe: De unos pocos a miles de idiomas

    [Ver repetición]

  • Shuai Wang (Universidad de Nanjing)

    Topic: Una única incrustación no sirve para todos: Replanteando el modelado del hablante para diversas aplicaciones de habla

    [Ver repetición]

  • Pan Pan (Director de Negocios de IA, Nexdata)

    Topic: Más allá de la escasez de datos: Diseño de canales de datos de calidad prioritaria en diferentes etapas de capacitación

    [Ver repetición]

Mantente al día

Síguenos en LinkedIn y YouTube para ver las últimas repeticiones y momentos destacados.

[Síguenos en LinkedIn]

[Suscríbete en YouTube]

Notas

Para consultas de prensa o solicitudes de autorización, comuníquese con: [email protected]

Motivación

Los modelos de lenguaje grande (LLM) han demostrado capacidades notables en una variedad de tareas posteriores y sirven como modelos de base poderosos para la comprensión y generación del lenguaje.Recientemente, ha habido un interés significativo en aplicar los LLM a tareas de procesamiento de voz y audio, incluido el Reconocimiento Automático de Habla (ASR), los Subtítulos de Audio y áreas emergentes como los Modelos de Diálogo Hablado.

Sin embargo, el desarrollo de modelos de diálogo hablado sólidos basados ​​en LLM depende en gran medida de datos de conversaciones del mundo real, que encapsulan la complejidad de la comunicación humana, incluidas las pausas naturales, las interrupciones, las superposiciones de hablantes y los diversos estilos de conversación.La escasez de tales datos, especialmente en contextos multilingües, plantea un desafío importante para el avance en este campo.

La importancia del habla conversacional en el mundo real se extiende más allá del avance tecnológico-es esencial para construir sistemas de IA que puedan comprender y responder de forma natural en entornos multilingües, dinámicos y ricos en contexto. Esto es especialmente crucial para los sistemas de interacción humano-IA de próxima generación, donde el diálogo hablado sirve como modo principal de comunicación.

Por lo tanto, este desafío y taller tienen como objetivo cerrar la brecha al albergar el desafío de construir modelos de lenguaje de habla conversacional multilingüe (MLC-SLM) y publicar un conjunto de datos de habla conversacional multilingüe del mundo real.

Definición y evaluación de la tarea

El desafío consta de dos tareas, ambas requieren que los participantes exploren el desarrollo de los modelos de lenguaje del habla (MLH):

Tarea I: Reconocimiento de Habla Conversacional Multilingüe

Objetivo: Desarrollar un modelo ASR multilingüe basado en LLM.

Los participantes recibirán segmentación de oráculo y etiquetas de interlocutor para cada conversación.

Esta tarea se centra en optimizar la precisión del reconocimiento en un entorno de conversación multilingüe.

Tarea II: Diarización y reconocimiento del habla conversacional multilingüe

Objetivo: Desarrollar un sistema tanto para la diarización del hablante (identificar quién habla y cuándo) como para el reconocimiento (transcribir el habla a texto).

No se proporcionará información previa ni de oráculo durante la evaluación (por ejemplo, no se permitirán enunciados presegmentados ni etiquetas de oradores).

Se fomentan los sistemas basados ​​en tuberías y de extremo a extremo, lo que proporciona flexibilidad en el diseño y la implementación del sistema.

Para la Tarea I, se evaluará el rendimiento del sistema utilizando la tasa de error de palabras (WER) o la tasa de error de caracteres (CER) en diferentes idiomas.

Para la Tarea II, el desempeño se evaluará en función de la tasa de error de diarización (DER) y la permutación mínima concatenada WER o CER, denominada tcpWER o tcpCER. El DER se utiliza para determinar la mejor permutación de ID de hablante entre los resultados de anotación de oráculo y diarización. A continuación, se concatenarán los resultados de reconocimiento y las referencias pertenecientes al mismo hablante dentro de una grabación para calcular el tcpWER o el tcpCER. Todos los envíos se clasificarán según el tcpWER o el tcpCER.

Fechas importantes (hora de AOE)

    10 de marzo de 2025: Apertura de inscripciones

    15 de marzo de 2025: Publicación de datos de capacitación

    1 de abril de 2025: Lanzamiento del conjunto de desarrollo y del sistema base.

    15 de mayo de 2025: Lanzamiento del conjunto de evaluación y apertura de la clasificación.

    30 de mayo de 2025: Congelación de la clasificación y apertura del portal de envío de trabajos (sistema CMT)

    15 de junio de 2025: Fecha límite para el envío de trabajos

    1 de julio de 2025: Notificación de aceptación

    22 de agosto de 2025: Fecha del taller

Descripción del dataset

Conjunto de entrenamiento

El conjunto de entrenamiento (Train) incluye aproximadamente 11 idiomas: inglés (en), francés (fr), alemán (de), italiano (it), portugués (pt), español (es), japonés (jp), coreano (ko), ruso (ru), tailandés (th), vietnamita (vi).

    Cada grabación consta de una conversación de dos hablantes sobre temas asignados al azar.

    Las conversaciones son naturales y fluidas, y los hablantes participan en diálogos significativos sobre cada tema.

    Grabado en entornos interiores silenciosos utilizando dispositivos como iPhones.

    Cada grabación proporcionará la segmentación del oráculo y la etiqueta del hablante para el desarrollo de sistemas de reconocimiento de habla y diarización de hablantes.

    Tanto la Tarea I como la Tarea II comparten el mismo conjunto de entrenamiento.

    El dataset en inglés comprende aproximadamente 500 horas de grabaciones de diversas regiones, incluyendo el inglés británico, estadounidense, australiano, indio y filipino. Otros idiomas aportan alrededor de 100 horas cada uno, lo que da un total aproximado de 1500 horas de datos de habla conversacional multilingüe.

Este dataset está diseñado para proporcionar un recurso valioso para entrenar y evaluar modelos de lenguaje conversacional multilingüe (MLC-SLM), abordando los desafíos de la diversidad lingüística, la variabilidad del hablante y la comprensión contextual.

Idioma Volumen de datos (h) Clasificación del idioma Frecuencia de muestreo Descripción
Inglés 500 Abarca 5 acentos diferentes de inglés, hablantes de Estados Unidos, Reino Unido, Filipinas, Australia e India. Diversos géneros y edades, con un estilo de conversación natural. La tasa de error de palabras es inferior al 2%.
100 Inglés americano 16K
100 Inglés británico 16K
100 Inglés filipino 16K
100 Inglés australiano 16K
100 Inglés indio 16K
Francés 100 16k Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%.
Alemán 100 16k Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%.
Italiano 100 16k Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%.
Japonés 100 16k Grabado con un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error en las oraciones es inferior al 5%.
Coreano 100 16k Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error en las oraciones es inferior al 5%.
Portugués
(Europa)
100 16k Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%.
Ruso 100 16k Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%.
Español
(España)
100 16k Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%.
Tailandés 100 16k Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 3%.
Vietnamita 100 16k Al grabar en un teléfono móvil, la grabadora selecciona varios temas conocidos y graba una conversación fluida y natural para cada uno. El hablante debe ser de diferentes géneros y edades. La tasa de error de palabras es inferior al 2%.

Conjunto de desarrollo

El conjunto de desarrollo (Dev) tiene la misma configuración que el conjunto de entrenamiento, pero contiene aproximadamente 4 horas de grabaciones para cada idioma. Tanto la Tarea I como la Tarea II comparten el mismo conjunto de desarrollo.

Conjunto de evaluación

Se emplean diferentes conjuntos de evaluación para cada tarea, denominados Eval_1 y Eval_2. Específicamente, Eval_1 incluye marcas de tiempo de oráculo y etiquetas de hablante, que se evalúan mediante WER/CER. Eval_2 no proporciona marcas de tiempo ni etiquetas de hablante, lo que requiere un sistema de diarización de hablantes (SD) para segmentar las grabaciones más largas antes del reconocimiento.Los participantes pueden acceder al dataset firmando el acuerdo de uso de datos y completando el formulario de registro. Tras el envío, recibirán el enlace de descarga de datos en su correo electrónico.

Acceso a código abierto

Puedes acceder y descargar el dataset de evaluación de código abierto a través del enlace que se proporciona a continuación. Tenga en cuenta que se requiere un breve formulario de registro antes de la descarga. Una vez aprobada su solicitud, le enviaremos el enlace de descarga del conjunto de datos por correo electrónico en un plazo de 7 días.

Requisito de cita

Si utiliza este dataset en su investigación personal o académica, cite la fuente como corresponda.

[ Formulario de registro- Solicitar Dataset Patrocinado - Descargar Dataset de evaluación]

Reglas

Todos los participantes deben cumplir con las siguientes reglas para ser elegibles para el desafío.

Uso de recursos externos: Tanto para el Track I como para el Track II, se permite el uso de conjuntos de datos externos y modelos preentrenados (incluidos los modelos de fundamentos del habla y los LLM). Todos los recursos externos utilizados deben ser de libre acceso para todos los grupos de investigación y deben indicarse claramente en el informe final del sistema.
Aumento de datos: el aumento de datos está permitido en el conjunto de entrenamiento publicado y puede incluir, entre otras cosas, la adición de ruido o reverberación, perturbación de velocidad y modificación de tono.
Prohibición del uso de conjuntos de evaluación: Queda estrictamente prohibido el uso de conjuntos de evaluación en cualquier forma que infrinja las normas. Esto incluye, entre otras cosas, el uso de conjuntos de evaluación para ajustar o entrenar el modelo.
Fusión de múltiples sistemas: los participantes NO pueden emplear la fusión de sistemas en las tareas I y II. Los resultados enviados deben derivarse de un solo modelo en lugar de mediante la fusión de resultados.
Requisitos de envío: Todos los participantes deben enviar su sistema. El envío puede incluir resultados finales, modelos y un Docker que permita realizar inferencias directas para obtener los resultados finales, etc. Se proporcionarán instrucciones detalladas para el envío tras la publicación de la implementación base. Tenga en cuenta que publicaremos el nombre de los equipos y sus instituciones afiliadas que confirmaron su participación pero no enviaron ningún archivo.
Interpretación del organizador: Los organizadores se reservan el derecho de interpretar estas bases en última instancia. En circunstancias especiales, coordinarán la interpretación según sea necesario.

Otros temas

Además de las descripciones de los sistemas de desafío, se anima a los participantes a presentar trabajos de investigación que presenten hallazgos innovadores, casos prácticos e ideas innovadoras. Los temas de interés incluyen, entre otros:

Nuevas arquitecturas y algoritmos: Desarrollo de nuevas arquitecturas y algoritmos para el entrenamiento de SLM.
Canalizaciones de procesamiento de datos de audio: Canalizaciones innovadoras para procesar datos de audio sin procesar que facilitan la recopilación de diversos datos de Internet para el entrenamiento de SLM.
Generación de habla natural y emocionalmente rica: algoritmos diseñados para generar un habla conversacional más natural y emocionalmente expresiva para sistemas de diálogo.
Aprovechamiento del historial conversacional de múltiples turnos: enfoques que utilizan el historial conversacional de múltiples turnos para mejorar los resultados de reconocimiento y diarización.
Técnicas de evaluación y puntos de referencia:técnicas de evaluación innovadoras o puntos de referencia diseñados específicamente para evaluar los SLM.
Nuevos conjuntos de datos: Creación de nuevos dataset, tanto reales como sintéticos, para el entrenamiento de modelos de lenguaje de habla y audio.

Acceso y uso de datos

Los participantes registrados tendrán acceso a los datasets de entrenamiento y prueba. Deberán firmar un acuerdo de uso de datos (véase más abajo), aceptar la confidencialidad y cumplir con el acuerdo de protección de datos. Los datasets se utilizarán exclusivamente para el desafío del taller, y su redistribución o cualquier otro uso está estrictamente prohibido. Es responsabilidad del participante proteger los datos del acceso no autorizado.

Acuerdo de licencia de datos
Acuerdo de uso de datos - nexdata

Inscripción

Para participar, es necesario registrarse.Por favor suba el acuerdo de uso de datos firmado y complete el formulario de inscripción . El reto comienza el 10 de marzo de 2025.

Para cualquier otra información sobre el registro, envíe un correo electrónico a: [email protected]

Sistema de referencia

Github/MLC-SLM-Baseline

Presentación de la tabla de clasificación

Presentación de la Tarea I

Presentación de la Tarea II

Normas para la presentación de trabajos

1. Trabajos de desafío:

a. Los participantes deben presentar UN documento breve de descripción técnica (incluso si el equipo participó en ambas tareas).

b. Extensión: 2-4 páginas de contenido + 1 página de referencias.

c. Requisitos de contenido:
  i.Descripciones claras del sistema para garantizar la exactitud del envío y el cumplimiento de las normas.
  ii.Los detalles de reproducibilidad incluyen datasets y modelos de código abierto utilizados, estrategias de aumento de datos, arquitecturas de modelos, configuraciones de entrenamiento, etc.
  iii. Los estudios de ablación demuestran la eficacia del método.

d. Se espera que todos los participantes del desafío presenten una charla o un póster en el taller.

2. Trabajos no relacionados con el reto:

a. Extensión: 4 páginas de contenido + 1 página de referencias.

b. Temas: Incluir, entre otros, los temas mencionados en el sitio web del reto.

3. Kit de autor:

Utilice el kit de autor LaTeX de Interspeech 2022 (https://www.interspeech2022.org/files/IS2022_paper_kit.zip) para todos los envíos. Tenga en cuenta que estamos utilizando el kit de autor de Interspeech 2022 para continuar con la revisión ciega simple.

4. Portal de envío de trabajos

a.Envíe su trabajo a través del sistema de conferencias de CMT.

b. El servicio Microsoft CMT se utilizó para gestionar el proceso de revisión por pares de esta conferencia. Este servicio fue proporcionado gratuitamente por Microsoft y ellos asumieron todos los gastos, incluidos los de los servicios en la nube de Azure, así como los de desarrollo y soporte de software.

Premios

FONDO TOTAL DEL PREMIO: $20,000, patrocinado por Huawei Technologies.

Premios para los equipos mejor clasificados en esta competición (cada tarea):

Primer lugar: $5,000
Segundo lugar: $3,000
Tercer lugar: $2,000

Resultados de las competiciones

Tarea I del MLC-SLM

Nombre de usuario WER/CER No. Nombre del equipo Institución
tenp19.61TENPLaboratorio de audio etéreo de Tencent
dieciséis años9.672dieciséis añosAcademia China de Ciencias
t-asr9.833T-ASRSHENZHEN TRANSSION HOLDINGS CO., LTD.
megaais10.084MegaAISMegatronix (Pekín) Tecnología Co., Ltd.
maxiaoai10.565MaXiaoAlMashang Conumer Finance Co.,Ltd.(MSCF)
ntu_speechlab10.586NTU-SpeechlabNanyang Tecnología Co., Ltd.
cheryfsai11.277Cheryfs-AIChery HuiYin Motor Finance Service Co., Ltd.
seewo11.578seewoGuangzhou Shirui Electronics Co., Ltd.
daominhtri11.719Pastel de VPBankPastel de VPBank
Quizás11.7610MayoUniversidad Normal de Shanghái

Tarea  II del MLC-SLM

Nombre de usuario tcpWER/tcpCER No. Nombre del equipo Institución
megaais16.531MegaAISMegatronix (Pekín) Tecnología Co., Ltd.
tenp117.492TENPLaboratorio de audio etéreo de Tencent
seewo17.673seewoGuangzhou Shirui Electronics Co., Ltd.
duke_kunshan18.084DKUUniversidad Duke Kunshan
dieciséis años19.275dieciséis añosAcademia China de Ciencias
cheryfsai26.36Cheryfs-AIChery HuiYin Motor Finance Service Co., Ltd.
saengthong27.257ST-ShinozakiLabInstituto de Ciencias de Tokio
fosafer31.688INVESTIGACIÓN FOSAFERPEKÍN Fosafer Tecnología de la Información Co., Ltd.
voicecode55.969VoiceCodeVOICECODE TECHNOLOGY PTE.LTD.
51751759.410INFXUniversidad Zhejiang

Nota: Solo se listan los 10 mejores participantes de cada prueba. Para cualquier consulta sobre los resultados de los equipos, contacte con el comité organizador.

Lugar

Muelle 14 del Centro de Convenciones Rotterdam Ahoy, Róterdam, Países Bajos

Cuota de inscripción para asistir al taller

Cuota de inscripción: 50 €

Organizadores

    Lei Xie, Profesor, Universidad Politécnica del Noroeste (China)

    Shinji Watanabe, profesor asociado, Universidad Carnegie Mellon (EE. UU.)

    Eng Siong Chng, Profesor, Universidad Tecnológica de Nanyang (Singapur)

    Junlan Feng, miembro del IEEE y científico jefe de China Mobile (China)

    Shuai Wang, Científico de investigación, Nanjing University (China)

    Longshuai Xiao, Huawei Technologies (China)

    Khalid Choukri, Secretario General de la Asociación Europea de Recursos Lingüísticos (Francia)

    Qiangze Feng, cofundador y científico de datos, Nexdata (EE. UU.)

    Daliang Wang, científico de datos, Nexdata (EE. UU.)

    Hexin Liu, investigador postdoctoral, Universidad Tecnológica de Nanyang (Singapur)

    Pengcheng Guo, estudiante de PhD, Universidad Politécnica del Noroeste (China)

    Bingshen Mu, estudiante de PhD, Universidad Politécnica del Noroeste (China)

    Zhaokai Sun, estudiante de maestría, Universidad Politécnica del Noroeste (China)

Patrocinadores

Parceiros de Mídia

3614d6ba-7e2d-4cf8-89c1-76f6c7164e8a