{"id":1064,"datatype":"1","titleimg":"https://es.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"150","type2str":null,"dataname":"105.941 imágenes datos OCR 12 idiomas escenas naturales","datazy":[{"title":"Escala de datos","desc":"Escala de datos","content":"105.941 imágenes, incluyendo familia asiática: 9.997 imágenes en japonés, 10.231 imágenes en coreano, 7.591 imágenes en indonesio, 5.650 imágenes en malayo, 8.822 imágenes en vietnamita, 9.645 imágenes en tailandés; familia europea: 10.015 imágenes en francés, 7.213 imágenes en alemán, 8.824 imágenes en italiano, 7.754 imágenes en portugués, 10.376 imágenes en ruso, 9.823 imágenes en español"},{"title":"Entorno de captura","desc":"Entorno de captura","content":"Incluye rótulos comerciales, paradas, carteles, tickets, señales, cómics, tapas de alcantarilla, frases informativas, advertencias, empaques, menús, señales edificatorias, etc."},{"title":"Diversidad de captura","desc":"Diversidad de captura","content":"Incluye 12 idiomas, múltiples escenas de naturaleza, múltiples ángulos de cámara (vista inferior, vista superior， visión normal)"},{"title":"Equipos de captura","desc":"Equipos de captura","content":"Teléfonos móviles, cámaras"},{"title":"Parámetros de imagen","desc":"Parámetros de imagen","content":"El formato de imagen es .jpg, el formato de anotación es .json"},{"title":"Contenido de etiquetado","desc":"Contenido de etiquetado","content":"Marcado de cuadriláteros a nivel de línea, transcripción de contenidos a nivel de línea"},{"title":"Precisión","desc":"Precisión","content":"Se detecta correctamente una desviación del vértice de la caja cuadrangular de no más de cinco píxeles; la precisión de la detección de la caja no es inferior al 97%; la precisión de la transcripción del texto no es inferior al 97%."}],"datatag":"12 languages,Multiple photographic angles,Multiple scenes,Line-level quadrilateral bounding box annotation and transcription","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Spanish.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Spanish.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=TafXJxAg8o5Kg%2BGun3KIiEjsu%2BU%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Portuguese.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Portuguese.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=9arI65%2BOzsdy2xK7XZfBGqmQ2og%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/German.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/German.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=%2FiYq03v6ZQCDTNsEE6fB5DmAkGk%3D","intro":"","size":0,"progress":100,"type":"jpg"}],"officialSummary":"Los 105.941 datos OCR de escenas naturales abarcan 12 idiomas, incluidos 6 idiomas asiáticos y 6 idiomas europeos, y la colección cubre una variedad de escenas naturales y una variedad de ángulos de toma. En cuanto a la anotación, se etiquetan los cuadros cuadriláteros de texto a nivel de línea y se transcribe el texto a nivel de línea. Este conjunto de datos puede utilizarse para tareas de OCR multilingüe.","dataexampl":null,"datakeyword":["Japonés","Coreano","Indonesio","Malayo","Vietnamita","Tailandés","Francés","Alemán","Italiano","Portugués","Ruso","Español","OCR","escenas naturales","múltiples ángulos fotográficos","anotación cuadrilátero nivel línea y transcripción para textos"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"ocr","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"}]","productNameEn":"105,941 Images Natural Scenes OCR Data of 12 Languages","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Russian.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200531001_demo1695808990408/Russian.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=ieEtznzUAUiNqtvqirs%2F8uIwe8Y%3D","intro":"","size":0,"progress":100,"type":"jpg"}]}

es

Please fill in your name

Mobile phone format error

Ingrese el teléfono

Introduzca el nombre de su empresa

Introduzca el correo electrónico de su empresa.

Ingrese los datos requeridos

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

El requisito de datos no puede ser inferior a 5 palabras y no pueden ser números puros.

hogar > Todos los Datasets de categorías > Datasets de OCR > 105.941 imágenes datos OCR 12 idiomas escenas naturales

105.941 imágenes datos OCR 12 idiomas escenas naturales

Japonés

Coreano

Indonesio

Malayo

Vietnamita

Tailandés

Francés

Alemán

Italiano

Portugués

Ruso

Español

OCR

escenas naturales

múltiples ángulos fotográficos

anotación cuadrilátero nivel línea y transcripción para textos

Los 105.941 datos OCR de escenas naturales abarcan 12 idiomas, incluidos 6 idiomas asiáticos y 6 idiomas europeos, y la colección cubre una variedad de escenas naturales y una variedad de ángulos de toma. En cuanto a la anotación, se etiquetan los cuadros cuadriláteros de texto a nivel de línea y se transcribe el texto a nivel de línea. Este conjunto de datos puede utilizarse para tareas de OCR multilingüe.

Este Dataset es de pago para uso comercial, investigación y más. Los Datasets licenciados y listos para usar ayudan a impulsar proyectos de IA.

Especificaciones

Especificaciones

Escala de datos

105.941 imágenes, incluyendo familia asiática: 9.997 imágenes en japonés, 10.231 imágenes en coreano, 7.591 imágenes en indonesio, 5.650 imágenes en malayo, 8.822 imágenes en vietnamita, 9.645 imágenes en tailandés; familia europea: 10.015 imágenes en francés, 7.213 imágenes en alemán, 8.824 imágenes en italiano, 7.754 imágenes en portugués, 10.376 imágenes en ruso, 9.823 imágenes en español

Entorno de captura

Incluye rótulos comerciales, paradas, carteles, tickets, señales, cómics, tapas de alcantarilla, frases informativas, advertencias, empaques, menús, señales edificatorias, etc.

Diversidad de captura

Incluye 12 idiomas, múltiples escenas de naturaleza, múltiples ángulos de cámara (vista inferior, vista superior， visión normal)

Equipos de captura

Teléfonos móviles, cámaras

Parámetros de imagen

El formato de imagen es .jpg, el formato de anotación es .json

Contenido de etiquetado

Marcado de cuadriláteros a nivel de línea, transcripción de contenidos a nivel de línea

Precisión

Se detecta correctamente una desviación del vértice de la caja cuadrangular de no más de cinco píxeles; la precisión de la detección de la caja no es inferior al 97%; la precisión de la transcripción del texto no es inferior al 97%.

Ejemplo

Ejemplo

Recommended Datasets

Dataset recomendado

500.000 imágenes de datos de anotación OCR de escenas naturales, escenas de fotos de documentos y escenas electrónicas de 21 países

500.000 imágenes de datos de anotación OCR de escenas naturales, escenas de fotos de documentos y escenas electrónicas de 21 países. Los datos incluyen 21 idiomas, con una distribución de 20,000 a 25,000 imágenes por idioma. Los tipos de datos incluyen escenas naturales, escenas de fotos de documentos y escenas electrónicas. La diversidad de datos incluye múltiples tipos de datos, múltiples ángulos de captura y múltiples idiomas. En cuanto a la anotación, se utiliza anotación a nivel de fila (columna) con cuadriláteros o polígonos y transcripción de contenido a nivel de fila (columna). Los datos pueden utilizarse para tareas de reconocimiento OCR multilingüe.

Conjunto de datos OCR multilingüe datos de reconocimiento de texto en escenas conjunto de datos OCR de documentos datos OCR de pantallas electrónicas conjunto de datos OCR 21 idiomas datos de entrenamiento OCR para IA conjunto de datos de reconocimiento de texto

500.000 imágenes de datos OCR de escenas naturales y documentos en múltiples países

500.000 imágenes de datos OCR de escenas naturales y documentos multinacionales, que incluyen 20 idiomas como chino tradicional, japonés, coreano, indonesio, malayo, tailandés, vietnamita, polaco, etc. La diversidad de captura incluye múltiples escenas naturales, múltiples ángulos de toma. Este conjunto de datos puede usarse para tareas OCR de idiomas multinacionales.

Escenas naturales Documentos OCR

30.000 imágenes de datos OCR de escenas naturales en idiomas minoritarios del sudeste asiático

30.000 imágenes de datos OCR de escenas naturales en idiomas minoritarios del sudeste asiático, que incluyen 3 idiomas: jemer (Camboya), laosiano y birmano. La diversidad de captura incluye múltiples escenas naturales, múltiples ángulos de toma. Este conjunto de datos puede usarse para tareas OCR de idiomas del sudeste asiático.

OCR Lenguas sudeste asiático Escenas naturales

5.000 imágenes de datos OCR en turco de escenas naturales

5.000 imágenes de datos OCR en turco en escenas naturales incluyen múltiples escenas naturales, múltiples ángulos de toma. En cuanto a anotaciones, se anota el cuadro delimitador cuadrilátero y la transcripción de texto a nivel de línea, anotación de cuadro delimitador poligonal y transcripción. Este conjunto de datos puede usarse para tareas OCR de idioma turco.

OCR，Turco，Escenas naturales

8.604 imágenes de datos OCR de escenas naturales árabe

8.604 datos OCR de escenas naturales en árabe incluyen múltiples escenas naturales, múltiples ángulos de captura. En términos de anotación, se anotan cuadriláteros y transcripción de texto a nivel de línea, anotación y transcripción de polígonos. Este conjunto de datos se puede utilizar para tareas OCR del idioma árabe.

Datos OCR árabe conversión contenido OCR datos OCR conjunto datos OCR etiquetado OCR recolección OCR procesamiento datos OCR datos conversión OCR

104.320 imágenes datos OCR escenas naturales coreano-hindi

104.320 datos OCR de escenas naturales en coreano e hindi. Escenarios de recopilación incluyen empaques de productos, carteles, boletos de transporte, letreros informativos, menús, señales de edificios, etc. Diversidad: múltiples escenarios, ángulos de captura, condiciones de iluminación. Distribución lingüística: coreano, hindi e inglés (pequeña cantidad). En anotaciones: Anotación de caja poligonal (o cuadrilátero, rectángulo) a nivel de línea, transcripción de contenido a nivel de línea, atributos de texto (tipo de idioma); Anotación de caja poligonal (o cuadrilátero, rectángulo) a nivel de columna, transcripción de contenido a nivel de columna, atributos de texto (tipo de idioma). Este conjunto de datos OCR de escenas naturales en coreano e hindi puede usarse para tareas OCR en escenas naturales coreanas e hindúes.

Coreano Hindi Datos OCR Escena natural Datos transliteración OCR

57.645 imágenes datos OCR escenas texto vertical

57.645 datos OCR de escenas de texto verticales. Las escenas de la colección incluyen escenas de calles, placas, vallas publicitarias, carteles, decoraciones, caracteres artísticos, portadas de revistas, etc. La distribución lingüística es china e inglesa (unas pocas). En cuanto a las anotaciones, se pueden realizar anotaciones en cajas rectangulares a nivel de columna (cajas poligonales, cajas de paralelogramo) y transcripciones de contenido a nivel de columna; anotaciones en cajas rectangulares no verticales (cajas poligonales, cajas de paralelogramo) y transcripciones de contenido no verticales. Este conjunto de datos puede utilizarse para diversas tareas de OCR de escenas de texto verticales.

Datos OCR escenas texto vertical Datos imagen OCR Datos OCR Conjunto datos OCR Anotación OCR Adquisición OCR Procesamiento datos OCR Datos reescritura OCR

4.995 imágenes datos OCR vietnamita: anotación + transcripción

4.995 imágenes de datos de OCR en vietnamita anotados y transcritos incluyen 258 imágenes naturales, 2.553 de internet, 2.184 de texto. Anotación: Contenido por línea: caja delimitadora cuadrilátera por línea, transcripción por línea; Contenido vertical: caja delimitadora cuadrilátera vertical, transcripción vertical. Este conjunto de datos de OCR en vietnamita anotados y transcritos puede usarse para reconocimiento de vietnamita en múltiples escenarios, traducción fotográfica de vietnamita, etc.

Vietnamita OCR imágenes documentos imágenes internet escenas naturales múltiples ángulos diferentes condiciones luz anotación cuadrilátero delimitador transcripción nivel línea textos transcripción nivel columna textos

Indíquenos sus necesidades especiales

Nivel de madurez del proyecto

Fase de exploración inicial (sin especificaciones concretas)

Objetivos definidos, se requiere orientación profesional

Fase de desarrollo u optimización

Expertos en datos y etiquetado con especificaciones claras

Nombre completo *

Teléfono de contacto*

Nombre de la empresa *

Correo electrónico de la empresa *

Requisitos de datos *

Al enviar, acepto la Política de privacidad

Suscríbete a nuestro boletín

Sé el primero en recibir los últimos lanzamientos de productos, soluciones de datos y noticias empresariales de Nexdata.

Datasets listos para usar: Todos los Datasets de categorías; Datasets de LLM; Datasets de visión artificial; Datasets de reconocimiento de voz; Datasets de síntesis de voz; Datasets de OCR; Diccionario de pronunciación; Datasets de CLN

Servicio de Datos: Datos de nube de puntos 3D; Datos de Street View; Datos OCR; Datos de reconocimiento de comportamiento; Datos de reconocimiento de identidad; Datos de reconocimiento de voz; Datos de síntesis de voz; Datos multimodales

Industrias: IA encarnada; IA generativa; Vehículos autónomos; RA/RV; IA conversacional; Hogar inteligente; Comercio minorista; Sanidad inteligente

Empresa: Sobre nosotros; Noticias; Socios; Calidad y seguridad; Eventos
Enlaces: OPENMPD; DataPlus; Datarade

Plataforma: Plataforma
Competencia: Competencia
Recursos: Datasets patrocinados

Mejore su IA con mejores datos

+1(626)594-5598

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

Copyright © 2023 NEXDATA TECHNOLOGY INC

Mapa del sitio Términos y condiciones

Utilizamos cookies para mejorar tu experiencia de navegación, mostrarte anuncios o contenido personalizados y analizar nuestro tráfico. Al hacer clic en "Aceptar todo", aceptas nuestro uso de cookies.

fa21bd58-1c35-4855-ac18-9b5e66bd49e9

d4d089e1-7ea6-43e3-a25a-fc7d2929eafc