[{"@type":"PropertyValue","name":"Idioma","value":"Indonesio, malayo, tailandés, vietnamita"},{"@type":"PropertyValue","name":"Volumen de datos","value":"Entradas en indonesio 14447771. entradas en malayo 1239420. entradas en tailandés 6467564. entradas en vietnamita 8942813. total de más de 31 millones de entradas"},{"@type":"PropertyValue","name":"Campo","value":"URL,título,hora_de_publicación,contenido_del_artículo,categoría"},{"@type":"PropertyValue","name":"Formato","value":"JSONL"}]
{"id":1625,"datatype":"1","titleimg":"https://es.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"226","type1str":null,"type2":"227","type2str":null,"dataname":"31.000.000 textos noticiosos en idiomas del sudeste asiático","datazy":[{"title":"Idioma","desc":"Idioma","content":"Indonesio, malayo, tailandés, vietnamita"},{"title":"Volumen de datos","desc":"Volumen de datos","content":"Entradas en indonesio 14447771. entradas en malayo 1239420. entradas en tailandés 6467564. entradas en vietnamita 8942813. total de más de 31 millones de entradas"},{"title":"Campo","desc":"Campo","content":"URL,título,hora_de_publicación,contenido_del_artículo,categoría"},{"title":"Formato","desc":"Formato","content":"JSONL"}],"datatag":"Minor languages,Southeast Asia,NEWS,Journalism","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"马来语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E9%A9%AC%E6%9D%A5%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=5rkbhwPKFeZUofOfpzcAP1%2B7Vas%3D","intro":"","size":44215,"progress":100,"type":"jpg"},{"name":"泰语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E6%B3%B0%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=1DspN1HLIWVpn%2FYfI6JAu0ZMbl0%3D","intro":"","size":103642,"progress":100,"type":"jpg"},{"name":"印尼语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E5%8D%B0%E5%B0%BC%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=VgoGApYUn6%2BChZRcnvN08SYI8cU%3D","intro":"","size":115113,"progress":100,"type":"jpg"}],"officialSummary":"Este conjunto de datos son datos de noticias multilingües del sudeste asiático, que cubren cuatro idiomas: indonesio, malayo, tailandés y vietnamita. El volumen total de datos supera los 31 millones de registros. Los datos se almacenan en formato JSONL, cada registro es una línea independiente, facilitando una lectura y procesamiento eficientes. Las fuentes de datos son amplias, cubriendo diversos temas de noticias, capaces de reflejar integralmente las dinámicas sociales, los puntos culturales calientes y las tendencias económicas de la región del sudeste asiático. Este conjunto de datos puede ayudar a los modelos grandes a mejorar sus capacidades multilingües, enriquecer el conocimiento cultural, optimizar el rendimiento, expandir aplicaciones industriales en el sudeste asiático e impulsar la investigación interlingüística.","dataexampl":null,"datakeyword":["Lenguas minoritarias"," Sudeste Asiático"," NOTICIAS"," Periodismo"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Type","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"llm","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"31 million Southeast Asian language news text dataset","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"越南语样例.png","url":"https://storage-product.datatang.com/damp/product/samplePresentation_ipad/20250718165755/%E8%B6%8A%E5%8D%97%E8%AF%AD%E6%A0%B7%E4%BE%8B.png?Expires=4102415999&OSSAccessKeyId=LTAI5tEBeSWUJiqjXvBMsxEu&Signature=HZvCPn1N1QW%2BocWDBvsxQJcoJzc%3D","intro":"","size":108698,"progress":100,"type":"jpg"}]}
31.000.000 textos noticiosos en idiomas del sudeste asiático
Lenguas minoritarias
Sudeste Asiático
NOTICIAS
Periodismo
Este conjunto de datos son datos de noticias multilingües del sudeste asiático, que cubren cuatro idiomas: indonesio, malayo, tailandés y vietnamita. El volumen total de datos supera los 31 millones de registros. Los datos se almacenan en formato JSONL, cada registro es una línea independiente, facilitando una lectura y procesamiento eficientes. Las fuentes de datos son amplias, cubriendo diversos temas de noticias, capaces de reflejar integralmente las dinámicas sociales, los puntos culturales calientes y las tendencias económicas de la región del sudeste asiático. Este conjunto de datos puede ayudar a los modelos grandes a mejorar sus capacidades multilingües, enriquecer el conocimiento cultural, optimizar el rendimiento, expandir aplicaciones industriales en el sudeste asiático e impulsar la investigación interlingüística.
Este Dataset es de pago para uso comercial, investigación y más. Los Datasets licenciados y listos para usar ayudan a impulsar proyectos de IA.
Especificaciones
Idioma
Indonesio, malayo, tailandés, vietnamita
Volumen de datos
Entradas en indonesio 14447771. entradas en malayo 1239420. entradas en tailandés 6467564. entradas en vietnamita 8942813. total de más de 31 millones de entradas