[{"@type":"PropertyValue","name":"Escala de datos","value":"202 personas, cada persona captura 13 clips de audio-video desde diferentes ángulos + 1 documento txt"},{"@type":"PropertyValue","name":"Distribución de personal","value":"Distribución racial: raza amarilla (indonesios); distribución de género: 89 hombres, 113 mujeres; rango etario: 165 personas (18-30 años), 32 personas (31-45 años), 5 personas (46-60 años)"},{"@type":"PropertyValue","name":"Entorno de captura","value":"Escenarios de luz natural interior, escenarios de luz fluorescente interior"},{"@type":"PropertyValue","name":"Diversidad de los datos","value":"Cubre múltiples escenarios, diferentes edades, diferentes ángulos de captura"},{"@type":"PropertyValue","name":"Equipos de captura","value":"Móvil, resolución de video 1.920*1.080"},{"@type":"PropertyValue","name":"Ángulo de captura","value":"Recoge simultáneamente datos de audio y vídeo desde 13 ángulos: cara frontal, 3 ángulos de la cara izquierda, 3 ángulos de la cara derecha, vista superior, vista inferior, vista superior de la cara izquierda, vista superior de la cara derecha, vista inferior de la cara izquierda y vista inferior de la cara derecha."},{"@type":"PropertyValue","name":"Contenido de la grabación","value":"Área general, el contenido no está limitado"},{"@type":"PropertyValue","name":"Idioma","value":"Mandarín estándar, duración de cada segmento de video no inferior a 20 segundos"},{"@type":"PropertyValue","name":"Formato de datos","value":"Formato de video es .mp4. audio mayor o igual a 16KHz y 16bit, tasa de fotogramas 25-30fps"},{"@type":"PropertyValue","name":"Precisión","value":"Precisión de caracteres superior a 95%"}]
{"id":1298,"datatype":"1","titleimg":"https://es.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"149","type2str":null,"dataname":"202 personas de datos de video multimodal labial multi-ángulo","datazy":[{"title":"Escala de datos","desc":"Escala de datos","content":"202 personas, cada persona captura 13 clips de audio-video desde diferentes ángulos + 1 documento txt"},{"title":"Distribución de personal","desc":"Distribución de personal","content":"Distribución racial: raza amarilla (indonesios); distribución de género: 89 hombres, 113 mujeres; rango etario: 165 personas (18-30 años), 32 personas (31-45 años), 5 personas (46-60 años)"},{"title":"Entorno de captura","desc":"Entorno de captura","content":"Escenarios de luz natural interior, escenarios de luz fluorescente interior"},{"title":"Diversidad de los datos","desc":"Diversidad de los datos","content":"Cubre múltiples escenarios, diferentes edades, diferentes ángulos de captura"},{"title":"Equipos de captura","desc":"Equipos de captura","content":"Móvil, resolución de video 1.920*1.080"},{"title":"Ángulo de captura","desc":"Ángulo de captura","content":"Recoge simultáneamente datos de audio y vídeo desde 13 ángulos: cara frontal, 3 ángulos de la cara izquierda, 3 ángulos de la cara derecha, vista superior, vista inferior, vista superior de la cara izquierda, vista superior de la cara derecha, vista inferior de la cara izquierda y vista inferior de la cara derecha."},{"title":"Contenido de la grabación","desc":"Contenido de la grabación","content":"Área general, el contenido no está limitado"},{"title":"Idioma","desc":"Idioma","content":"Mandarín estándar, duración de cada segmento de video no inferior a 20 segundos"},{"title":"Formato de datos","desc":"Formato de datos","content":"Formato de video es .mp4. audio mayor o igual a 16KHz y 16bit, tasa de fotogramas 25-30fps"},{"title":"Precisión","desc":"Precisión","content":"Precisión de caracteres superior a 95%"}],"datatag":"Lip multimodal,Mandarin Chinese,Multiple scenes,Different ages,Different shooting angles","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/002_male_29.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/002_male_29.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=ALASNNOKRu%2FsdItuxWu7btO8Gqs%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/001_female_30.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/001_female_30.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=mZRLnTYk5W0s3jRzP7Um81hhRvw%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/156_male_42.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/156_male_42.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2wVvKW6e6XgkYOi9kPqptswFKGs%3D","intro":"","size":0,"progress":100,"type":"jpg"}],"officialSummary":"Datos de video multimodal de labios multiángulo de 202 personas. El entorno de recopilación incluye escenas de luz natural interior y escenas de luz fluorescente interior. El equipo de recopilación fue teléfono móvil. La diversidad de recopilación cubre múltiples escenarios, diferentes edades, 13 ángulos de captura. El idioma es mandarín estándar. El contenido grabado es de dominio general, sin restricciones de contenido. Los datos se pueden utilizar para la investigación de algoritmos de aprendizaje multimodal en el campo de imágenes de voz.","dataexampl":null,"datakeyword":["Multigonal"," multimodal labial"," escenas luz natural interior"," escenas lámpara fluorescente interior"," 13 ángulos captura"," Mandarín chino"," campo general"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"speechRec","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"202 People - Multi-angle Lip Multimodal Video Data","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/090_female_38.png","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230627001_demo1715767204254/APY230627001_demo/090_female_38.png?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=c6Jkb362VMrtxemlPNPSW%2FkEH%2Fk%3D","intro":"","size":0,"progress":100,"type":"jpg"}]}
202 personas de datos de video multimodal labial multi-ángulo
Multigonal
multimodal labial
escenas luz natural interior
escenas lámpara fluorescente interior
13 ángulos captura
Mandarín chino
campo general
Datos de video multimodal de labios multiángulo de 202 personas. El entorno de recopilación incluye escenas de luz natural interior y escenas de luz fluorescente interior. El equipo de recopilación fue teléfono móvil. La diversidad de recopilación cubre múltiples escenarios, diferentes edades, 13 ángulos de captura. El idioma es mandarín estándar. El contenido grabado es de dominio general, sin restricciones de contenido. Los datos se pueden utilizar para la investigación de algoritmos de aprendizaje multimodal en el campo de imágenes de voz.
Este Dataset es de pago para uso comercial, investigación y más. Los Datasets licenciados y listos para usar ayudan a impulsar proyectos de IA.
Especificaciones
Escala de datos
202 personas, cada persona captura 13 clips de audio-video desde diferentes ángulos + 1 documento txt
Distribución de personal
Distribución racial: raza amarilla (indonesios); distribución de género: 89 hombres, 113 mujeres; rango etario: 165 personas (18-30 años), 32 personas (31-45 años), 5 personas (46-60 años)
Entorno de captura
Escenarios de luz natural interior, escenarios de luz fluorescente interior
Diversidad de los datos
Cubre múltiples escenarios, diferentes edades, diferentes ángulos de captura
Equipos de captura
Móvil, resolución de video 1.920*1.080
Ángulo de captura
Recoge simultáneamente datos de audio y vídeo desde 13 ángulos: cara frontal, 3 ángulos de la cara izquierda, 3 ángulos de la cara derecha, vista superior, vista inferior, vista superior de la cara izquierda, vista superior de la cara derecha, vista inferior de la cara izquierda y vista inferior de la cara derecha.
Contenido de la grabación
Área general, el contenido no está limitado
Idioma
Mandarín estándar, duración de cada segmento de video no inferior a 20 segundos
Formato de datos
Formato de video es .mp4. audio mayor o igual a 16KHz y 16bit, tasa de fotogramas 25-30fps