en

Please fill in your name

Mobile phone format error

Ingrese el teléfono

Introduzca el nombre de su empresa

Introduzca el correo electrónico de su empresa.

Ingrese los datos requeridos

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

El requisito de datos no puede ser inferior a 5 palabras y no pueden ser números puros.

31.000.000 textos noticiosos en idiomas del sudeste asiático

Lenguas minoritarias
Sudeste Asiático
NOTICIAS
Periodismo

Este conjunto de datos son datos de noticias multilingües del sudeste asiático, que cubren cuatro idiomas: indonesio, malayo, tailandés y vietnamita. El volumen total de datos supera los 31 millones de registros. Los datos se almacenan en formato JSONL, cada registro es una línea independiente, facilitando una lectura y procesamiento eficientes. Las fuentes de datos son amplias, cubriendo diversos temas de noticias, capaces de reflejar integralmente las dinámicas sociales, los puntos culturales calientes y las tendencias económicas de la región del sudeste asiático. Este conjunto de datos puede ayudar a los modelos grandes a mejorar sus capacidades multilingües, enriquecer el conocimiento cultural, optimizar el rendimiento, expandir aplicaciones industriales en el sudeste asiático e impulsar la investigación interlingüística.

Paid Datasets
Este Dataset es de pago para uso comercial, investigación y más. Los Datasets licenciados y listos para usar ayudan a impulsar proyectos de IA.
EspecificacionesEspecificaciones
Idioma
Indonesio, malayo, tailandés, vietnamita
Volumen de datos
Entradas en indonesio 14447771. entradas en malayo 1239420. entradas en tailandés 6467564. entradas en vietnamita 8942813. total de más de 31 millones de entradas
Campo
URL,título,hora_de_publicación,contenido_del_artículo,categoría
Formato
JSONL
Ejemplo Ejemplo
  • 31.000.000 textos noticiosos en idiomas del sudeste asiático
  • 31.000.000 textos noticiosos en idiomas del sudeste asiático
  • 31.000.000 textos noticiosos en idiomas del sudeste asiático
Recommended DatasetsDataset recomendado
Indíquenos sus necesidades especiales

Al enviar, acepto la Política de privacidad

d9c80b5a-05e8-4a72-9bc2-12fdb51bb380

b01198b7-60ca-44bf-8953-be80ed482a00