[{"@type":"PropertyValue","name":"Formato","value":"Vídeo en formato mp4. 1.280*720; audio en formato wav, 16kHz 16bit monoaural"},{"@type":"PropertyValue","name":"Entorno de grabación","value":"Simulación silenciosa en interiores de situaciones de conducción diurna al aire libre en una habitación soleada con ventanas; relación señal/ruido 15~20dB"},{"@type":"PropertyValue","name":"Escena de grabación","value":"Dividido en diferentes escenas grandes y subescenas según la intensidad de la luz"},{"@type":"PropertyValue","name":"Contenido de la grabación","value":"Instrucciones breves; frases habladas"},{"@type":"PropertyValue","name":"Grabadora","value":"249 chinos; 125 hombres, 124 mujeres"},{"@type":"PropertyValue","name":"Equipo de grabación","value":"Cámara, micrófono Hi-Fi, tarjeta de sonido"},{"@type":"PropertyValue","name":"Ángulo de grabación","value":"Graba simultáneamente vídeo (con audio y vídeo) desde 6 ángulos de la cara frontal, una cara lateral, vista superior, vista superior de la cara lateral, vista superior de la cara lateral y vista superior de la cara lateral, así como audio (sin vídeo) desde 2 distancias: extremo cercano y extremo lejano."},{"@type":"PropertyValue","name":"Idioma","value":"Mandarín"},{"@type":"PropertyValue","name":"Escenarios de aplicación","value":"Reconocimiento labial"},{"@type":"PropertyValue","name":"Precisión","value":"Tasa de exactitud por frase 95%"}]
{"id":996,"datatype":"1","titleimg":"https://es.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp","type1":"165","type1str":null,"type2":"168","type2str":null,"dataname":"155 horas datos vídeo sincronización labial_Multimodal","datazy":[{"title":"Formato","desc":"Formato","content":"Vídeo en formato mp4. 1.280*720; audio en formato wav, 16kHz 16bit monoaural"},{"title":"Entorno de grabación","desc":"Entorno de grabación","content":"Simulación silenciosa en interiores de situaciones de conducción diurna al aire libre en una habitación soleada con ventanas; relación señal/ruido 15~20dB"},{"title":"Escena de grabación","desc":"Escena de grabación","content":"Dividido en diferentes escenas grandes y subescenas según la intensidad de la luz"},{"title":"Contenido de la grabación","desc":"Contenido de la grabación","content":"Instrucciones breves; frases habladas"},{"title":"Grabadora","desc":"Grabadora","content":"249 chinos; 125 hombres, 124 mujeres"},{"title":"Equipo de grabación","desc":"Equipo de grabación","content":"Cámara, micrófono Hi-Fi, tarjeta de sonido"},{"title":"Ángulo de grabación","desc":"Ángulo de grabación","content":"Graba simultáneamente vídeo (con audio y vídeo) desde 6 ángulos de la cara frontal, una cara lateral, vista superior, vista superior de la cara lateral, vista superior de la cara lateral y vista superior de la cara lateral, así como audio (sin vídeo) desde 2 distancias: extremo cercano y extremo lejano."},{"title":"Idioma","desc":"Idioma","content":"Mandarín"},{"title":"Escenarios de aplicación","desc":"Escenarios de aplicación","content":"Reconocimiento labial"},{"title":"Precisión","desc":"Precisión","content":"Tasa de exactitud por frase 95%"}],"datatag":"Lip Language,Multimodal,Mandarin,Reading,Mobile Phone,Video camera","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=CXlfsrjdCwQkhc3n1EVtI%2Fpm8fE%3D","intro":"","size":0,"progress":100,"type":"mp4"},{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=Q6wG5SACXEx%2FwO8OAJz9mcmQ%2BEI%3D","intro":"","size":0,"progress":100,"type":"mp4"},{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=VLqukWwvgzvK1TYD8TaPyAvkwyo%3D","intro":"","size":0,"progress":100,"type":"mp4"}],"officialSummary":"249 personas grabando voz + video de labios sincronizado, grabación multi-dispositivo con alineación precisa mediante señales de pulso. Verificado por múltiples empresas de AI: ayuda a que los modelos muestren un rendimiento sobresaliente al enfrentar la diversidad del mundo real. Cumplimos estrictamente con regulaciones de protección de datos y privacidad, garantizando la protección de los derechos e intereses legítimos de los usuarios durante la recopilación, almacenamiento y uso de datos. Todos los datos cumplen con GDPR, CCPA, PIPL. Utilizable en investigación multimodal voz-imagen.","dataexampl":null,"datakeyword":["Lenguaje labial"," Multimodal"," Mandarín"," Lectura"," Teléfono móvil"," Cámara vídeo"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"155 Hours – Lip Sync Multimodal Video Data","BGimg":"brightSpot_audio","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2kWsbA%2FAu1%2Bb7WGo37pQLws%2F0tk%3D","intro":"","size":0,"progress":100,"type":"mp4"}]}
https://es.nexdata.ai/shujutang/static/image/index/datatang_yuyin_default.webp
[{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/39-1_7.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=CXlfsrjdCwQkhc3n1EVtI%2Fpm8fE%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/18-1_6.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=Q6wG5SACXEx%2FwO8OAJz9mcmQ%2BEI%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/31-1_2.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=VLqukWwvgzvK1TYD8TaPyAvkwyo%3D"},{"@type":"VideoObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY190322001_demo1715767200180/APY190322001/5-1_4.mp4?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2kWsbA%2FAu1%2Bb7WGo37pQLws%2F0tk%3D"}]
155 horas datos vídeo sincronización labial_Multimodal
Lenguaje labial
Multimodal
Mandarín
Lectura
Teléfono móvil
Cámara vídeo
249 personas grabando voz + video de labios sincronizado, grabación multi-dispositivo con alineación precisa mediante señales de pulso. Verificado por múltiples empresas de AI: ayuda a que los modelos muestren un rendimiento sobresaliente al enfrentar la diversidad del mundo real. Cumplimos estrictamente con regulaciones de protección de datos y privacidad, garantizando la protección de los derechos e intereses legítimos de los usuarios durante la recopilación, almacenamiento y uso de datos. Todos los datos cumplen con GDPR, CCPA, PIPL. Utilizable en investigación multimodal voz-imagen.
Este Dataset es de pago para uso comercial, investigación y más. Los Datasets licenciados y listos para usar ayudan a impulsar proyectos de IA.
![Especificaciones]()
Especificaciones
Formato
Vídeo en formato mp4. 1.280*720; audio en formato wav, 16kHz 16bit monoaural
Entorno de grabación
Simulación silenciosa en interiores de situaciones de conducción diurna al aire libre en una habitación soleada con ventanas; relación señal/ruido 15~20dB
Escena de grabación
Dividido en diferentes escenas grandes y subescenas según la intensidad de la luz
Contenido de la grabación
Instrucciones breves; frases habladas
Grabadora
249 chinos; 125 hombres, 124 mujeres
Equipo de grabación
Cámara, micrófono Hi-Fi, tarjeta de sonido
Ángulo de grabación
Graba simultáneamente vídeo (con audio y vídeo) desde 6 ángulos de la cara frontal, una cara lateral, vista superior, vista superior de la cara lateral, vista superior de la cara lateral y vista superior de la cara lateral, así como audio (sin vídeo) desde 2 distancias: extremo cercano y extremo lejano.
Escenarios de aplicación
Reconocimiento labial
Precisión
Tasa de exactitud por frase 95%
![Ejemplo]()
Ejemplo
![Recommended Datasets]()
Dataset recomendado
Indíquenos sus necesidades especiales
affc90d5-b046-4294-b7a9-119deab668d6