Dataset para Modelos de Lenguaje a Gran Escala

Please fill in your name

Mobile phone format error

Ingrese el teléfono

Introduzca el nombre de su empresa

Introduzca el correo electrónico de su empresa.

Ingrese los datos requeridos

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

El requisito de datos no puede ser inferior a 5 palabras y no pueden ser números puros.

hogar > Todos los Datasets de categorías > Datasets de LLM

Tipo

Todo

Pie de imagen

Datasets SFT

Texto de preentrenamiento

32.000.000 ejercicios de datos procesados de análisis estructural de texto de exámenes de ciencias e ingeniería

Datos de procesamiento de análisis estructurado de texto de 32.000.000 de preguntas de examen de ciencias e ingeniería, que contienen asignaturas de ciencias e ingeniería como matemáticas, física, química, biología en primaria, secundaria, preparatoria y universidad. Cada pregunta contiene campos como problema, respuesta, análisis, tipo de pregunta, asignatura, etapa educativa. Estos datos pueden usarse para tareas de mejora de conocimiento disciplinario de modelos grandes.

Preguntas asignaturas ciencias LLM Texto

1.000.000 ejercicios de datos procesados de análisis estructural de texto de exámenes de código en chino

Datos de procesamiento de análisis estructurado de texto de 1.000.000 de preguntas de examen de código en chino, que contienen preguntas de código en múltiples lenguajes como c, c++, python, java, javascript. Cada pregunta contiene campos como problema, respuesta, análisis y lenguaje. Estos datos pueden ayudar al modelo a construir y consolidar habilidades de programación de código, logrando así un mejor desempeño en tareas de programación.

Preguntas código LLM Texto

100.000 entradas de conjunto de datos de texto para ajuste fino de instrucciones con modelos grandes en inglés

Conjunto de datos de texto para ajuste fino de instrucciones con modelos grandes en inglés, recurso de entrenamiento diseñado específicamente para la optimización de modelos de IA, mejora significativamente la capacidad de comprensión y ejecución de instrucciones del modelo, con doble verificación por lingüistas e ingenieros de IA, compatible perfectamente con los requisitos de ajuste fino de modelos preentrenados principales.

Conjunto de datos de ajuste fino para LLM ajuste fino supervisado conjunto de datos SFT datos de ajuste de instrucciones en inglés datos LLM de dominio general ajuste fino de modelos de IA datos de entrenamiento para seguimiento de instrucciones conjunto de datos de ajuste para GPT

50.000 conjuntos de datos de edición de imágenes

50.000 grupos de datos de edición de imágenes. Los tipos de edición incluyen eliminación de objetivo, adición de objetivo, modificación de objetivo, reemplazo de objetivo. Los objetivos de edición cubren escenarios como personas, animales, productos, plantas, paisajes, etc. En cuanto a anotaciones, según las instrucciones de edición, se realiza recorte y anotación de eliminación/adición/modificación/reemplazo del objetivo que necesita edición en la imagen. Los datos pueden usarse para composición de imágenes, aumento de datos, generación de escenas virtuales y otras tareas.

Edición imagen

25.000 conjuntos de datos de video multietilo de personas

Datos de video multiesilo de 25.000 personas, que contienen videos de múltiples estilos de 25.000 personas en diferentes escenarios. Los tonos de piel cubren blanco/amarillo/marrón/negro, las edades cubren jóvenes/adultos/ancianos. La resolución de video no es inferior a 1.920x1.080, la duración no es inferior a 10 segundos. Este conjunto de datos puede usarse para generación de video con consistencia de personajes, generación de humanos digitales y otras tareas.

Vídeo personas relacionadas Humano digital Generación vídeo

100.000 pares de conjuntos de datos de texto SFT de seguimiento de instrucciones complejas en dominio general para modelos grandes en chino

100.000 pares de instrucciones prompt complejas en chino, con una longitud de 50 a 400 caracteres, cada prompt contiene no menos de 3 condiciones restrictivas, utilizadas para entrenar y mejorar la capacidad de seguimiento de instrucciones de grandes modelos. Las categorías cubren generación (redacción de noticias, esquemas de entrevistas, creación de textos, revisión de manuscritos, redacciones en chino e inglés, aprendizaje gramatical, informes de investigación, planes de estudio, creación poética, presentación de comida, artículos publicitarios, discursos de ventas, escritura asistida de documentos oficiales, revisión de documentos oficiales, preguntas y respuestas sobre documentos políticos, etc.), reescritura (reformulación de oraciones, corrección de textos, fusión de oraciones, simplificación de textos), resumen (resumen de contenido), extracción (extracción de elementos de eventos, extracción de opiniones, extracción de palabras clave, extracción de posturas, extracción de entidades). Todos los prompts fueron escritos manualmente, satisfacen una cobertura diversificada.

LLM Seguimiento instrucciones SFT

Personalice sus datos ahora

Por qué Datasets listos para usar

Derechos de autor
Derechos de autor claros y Listo para revisar
Seguridad
Autorizado adecuadamente Uso seguro
Profesional
Diseñado y producido por expertos en datos de IA
Diversidad
Recogido de una variedad de escenas reales
Efectivo en costos
Más rentable que los datos personalizados
Eficiencia
Listo para llevar entrega en segundos

Suscríbete a nuestro boletín

Sé el primero en recibir los últimos lanzamientos de productos, soluciones de datos y noticias empresariales de Nexdata.

Datasets listos para usar: Todos los Datasets de categorías; Datasets de LLM; Datasets de visión artificial; Datasets de reconocimiento de voz; Datasets de síntesis de voz; Datasets de OCR; Diccionario de pronunciación; Datasets de CLN

Servicio de Datos: Datos de nube de puntos 3D; Datos de Street View; Datos OCR; Datos de reconocimiento de comportamiento; Datos de reconocimiento de identidad; Datos de reconocimiento de voz; Datos de síntesis de voz; Datos multimodales

Industrias: IA encarnada; IA generativa; Vehículos autónomos; RA/RV; IA conversacional; Hogar inteligente; Comercio minorista; Sanidad inteligente

Empresa: Sobre nosotros; Noticias; Socios; Calidad y seguridad; Eventos
Enlaces: OPENMPD; DataPlus; Datarade

Plataforma: Plataforma
Competencia: Competencia
Recursos: Datasets patrocinados

Mejore su IA con mejores datos

+1(626)594-5598

[email protected]

Mapa del sitio Términos y condiciones

Utilizamos cookies para mejorar tu experiencia de navegación, mostrarte anuncios o contenido personalizados y analizar nuestro tráfico. Al hacer clic en "Aceptar todo", aceptas nuestro uso de cookies.

16bb4c8a-6eeb-4be1-9c73-457d6718d0d9

Datasets de LLM