{"id":1058,"datatype":"1","titleimg":"https://es.nexdata.ai/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"150","type2str":null,"dataname":"3.506 imágenes datos OCR hindi: anotación + transcripción","datazy":[{"title":"Escala de datos","content":"3.506 imágenes: 2.056 escenas naturales, 1.103 textos en imágenes de internet, 347 imágenes de texto","desc":"Escala de datos"},{"title":"Entorno de captura","content":"Escenas naturales (placas, descripciones de envases, pequeños anuncios, menús, carteles, etc.), imágenes de Internet (portadas de revistas, portadas de cómics, etc.), imágenes de texto (documentos de texto, etc.)","desc":"Entorno de captura"},{"title":"Diversidad de captura","content":"Incluye múltiples escenas, múltiples ángulos y diferentes condiciones de iluminación","desc":"Diversidad de captura"},{"title":"Equipos de captura","content":"Teléfonos móviles","desc":"Equipos de captura"},{"title":"Ángulo de captura","content":"Vista inferior, visión normal","desc":"Ángulo de captura"},{"title":"Formato de datos","content":"El formato de la imagen es .jpg y el del documento de anotación es .json.","desc":"Formato de datos"},{"title":"Contenido de etiquetado","content":"Marcado de cuadriláteros a nivel de línea, transcripción de contenidos a nivel de línea; etiquetado de cuadriláteros a nivel de columna vertical, transcripción de contenidos a nivel de columna vertical","desc":"Contenido de etiquetado"},{"title":"Precisión","content":"Se detecta correctamente una desviación de los vértices de la caja cuadrangular no superior a 10 píxeles; la precisión de la detección de la caja no es inferior al 97%; la precisión de la transcripción del texto no es inferior al 97%.","desc":"Precisión"}],"datatag":"Hindi OCR,Multiple scenes,Multiple angles,Different light conditions","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY200102001_demo1695808983232/APY200102001_demo/00004.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200102001_demo1695808983232/APY200102001_demo/00004.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=1RHyBQ877xadK9qW66Lj6Ivikq0%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY200102001_demo1695808983232/APY200102001_demo/00006.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200102001_demo1695808983232/APY200102001_demo/00006.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=ZYCVjKlMLMjdYWQ17c9BpniCAa0%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY200102001_demo1695808983232/APY200102001_demo/00027.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200102001_demo1695808983232/APY200102001_demo/00027.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=p8LQVuz%2BoHuw%2BP8mwBwq45M3q9Q%3D","intro":"","size":0,"progress":100,"type":"jpg"}],"officialSummary":"3.506 imágenes de datos de OCR en hindi anotados y transcritos incluyen 2.056 imágenes naturales, 1.103 de internet, 347 de texto. Anotación: Contenido por línea: caja delimitadora cuadrilátera por línea, transcripción por línea; Contenido vertical: caja delimitadora cuadrilátera vertical, transcripción vertical. Este conjunto de datos de OCR en hindi anotados y transcritos puede usarse para reconocimiento de hindi en múltiples escenarios, traducción fotográfica de hindi, etc.","dataexampl":null,"datakeyword":["Hindi"," OCR"," imágenes documentos"," imágenes internet"," escenas naturales"," múltiples ángulos"," diferentes condiciones luz"," anotación cuadrilátero delimitador"," transcripción nivel línea textos"," transcripción nivel columna textos"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"ocr","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"3,506 Hindi OCR Images Data - Images with Annotation and Transcription","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY200102001_demo1695808983232/APY200102001_demo/00001.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY200102001_demo1695808983232/APY200102001_demo/00001.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=VNNczsPK38IDN%2F2BxuBFYMdpzBc%3D","intro":"","size":0,"progress":100,"type":"jpg"}]}

es

Please fill in your name

Mobile phone format error

Ingrese el teléfono

Introduzca el nombre de su empresa

Introduzca el correo electrónico de su empresa.

Ingrese los datos requeridos

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

El requisito de datos no puede ser inferior a 5 palabras y no pueden ser números puros.

hogar > Todos los Datasets de categorías > Datasets de OCR > 3.506 imágenes datos OCR hindi: anotación + transcripción

3.506 imágenes datos OCR hindi: anotación + transcripción

Hindi

OCR

imágenes documentos

imágenes internet

escenas naturales

múltiples ángulos

diferentes condiciones luz

anotación cuadrilátero delimitador

transcripción nivel línea textos

transcripción nivel columna textos

3.506 imágenes de datos de OCR en hindi anotados y transcritos incluyen 2.056 imágenes naturales, 1.103 de internet, 347 de texto. Anotación: Contenido por línea: caja delimitadora cuadrilátera por línea, transcripción por línea; Contenido vertical: caja delimitadora cuadrilátera vertical, transcripción vertical. Este conjunto de datos de OCR en hindi anotados y transcritos puede usarse para reconocimiento de hindi en múltiples escenarios, traducción fotográfica de hindi, etc.

Este Dataset es de pago para uso comercial, investigación y más. Los Datasets licenciados y listos para usar ayudan a impulsar proyectos de IA.

Especificaciones

Especificaciones

Escala de datos

3.506 imágenes: 2.056 escenas naturales, 1.103 textos en imágenes de internet, 347 imágenes de texto

Entorno de captura

Escenas naturales (placas, descripciones de envases, pequeños anuncios, menús, carteles, etc.), imágenes de Internet (portadas de revistas, portadas de cómics, etc.), imágenes de texto (documentos de texto, etc.)

Diversidad de captura

Incluye múltiples escenas, múltiples ángulos y diferentes condiciones de iluminación

Equipos de captura

Teléfonos móviles

Ángulo de captura

Vista inferior, visión normal

Formato de datos

El formato de la imagen es .jpg y el del documento de anotación es .json.

Contenido de etiquetado

Marcado de cuadriláteros a nivel de línea, transcripción de contenidos a nivel de línea; etiquetado de cuadriláteros a nivel de columna vertical, transcripción de contenidos a nivel de columna vertical

Precisión

Se detecta correctamente una desviación de los vértices de la caja cuadrangular no superior a 10 píxeles; la precisión de la detección de la caja no es inferior al 97%; la precisión de la transcripción del texto no es inferior al 97%.

Ejemplo

Ejemplo

Recommended Datasets

Dataset recomendado

500.000 imágenes de datos de anotación OCR de escenas naturales, escenas de fotos de documentos y escenas electrónicas de 21 países

500.000 imágenes de datos de anotación OCR de escenas naturales, escenas de fotos de documentos y escenas electrónicas de 21 países. Los datos incluyen 21 idiomas, con una distribución de 20,000 a 25,000 imágenes por idioma. Los tipos de datos incluyen escenas naturales, escenas de fotos de documentos y escenas electrónicas. La diversidad de datos incluye múltiples tipos de datos, múltiples ángulos de captura y múltiples idiomas. En cuanto a la anotación, se utiliza anotación a nivel de fila (columna) con cuadriláteros o polígonos y transcripción de contenido a nivel de fila (columna). Los datos pueden utilizarse para tareas de reconocimiento OCR multilingüe.

Conjunto de datos OCR multilingüe datos de reconocimiento de texto en escenas conjunto de datos OCR de documentos datos OCR de pantallas electrónicas conjunto de datos OCR 21 idiomas datos de entrenamiento OCR para IA conjunto de datos de reconocimiento de texto

500.000 imágenes de datos OCR de escenas naturales y documentos en múltiples países

500.000 imágenes de datos OCR de escenas naturales y documentos multinacionales, que incluyen 20 idiomas como chino tradicional, japonés, coreano, indonesio, malayo, tailandés, vietnamita, polaco, etc. La diversidad de captura incluye múltiples escenas naturales, múltiples ángulos de toma. Este conjunto de datos puede usarse para tareas OCR de idiomas multinacionales.

Escenas naturales Documentos OCR

30.000 imágenes de datos OCR de escenas naturales en idiomas minoritarios del sudeste asiático

30.000 imágenes de datos OCR de escenas naturales en idiomas minoritarios del sudeste asiático, que incluyen 3 idiomas: jemer (Camboya), laosiano y birmano. La diversidad de captura incluye múltiples escenas naturales, múltiples ángulos de toma. Este conjunto de datos puede usarse para tareas OCR de idiomas del sudeste asiático.

OCR Lenguas sudeste asiático Escenas naturales

5.000 imágenes de datos OCR en turco de escenas naturales

5.000 imágenes de datos OCR en turco en escenas naturales incluyen múltiples escenas naturales, múltiples ángulos de toma. En cuanto a anotaciones, se anota el cuadro delimitador cuadrilátero y la transcripción de texto a nivel de línea, anotación de cuadro delimitador poligonal y transcripción. Este conjunto de datos puede usarse para tareas OCR de idioma turco.

OCR，Turco，Escenas naturales

8.604 imágenes de datos OCR de escenas naturales árabe

8.604 datos OCR de escenas naturales en árabe incluyen múltiples escenas naturales, múltiples ángulos de captura. En términos de anotación, se anotan cuadriláteros y transcripción de texto a nivel de línea, anotación y transcripción de polígonos. Este conjunto de datos se puede utilizar para tareas OCR del idioma árabe.

Datos OCR árabe conversión contenido OCR datos OCR conjunto datos OCR etiquetado OCR recolección OCR procesamiento datos OCR datos conversión OCR

104.320 imágenes datos OCR escenas naturales coreano-hindi

104.320 datos OCR de escenas naturales en coreano e hindi. Escenarios de recopilación incluyen empaques de productos, carteles, boletos de transporte, letreros informativos, menús, señales de edificios, etc. Diversidad: múltiples escenarios, ángulos de captura, condiciones de iluminación. Distribución lingüística: coreano, hindi e inglés (pequeña cantidad). En anotaciones: Anotación de caja poligonal (o cuadrilátero, rectángulo) a nivel de línea, transcripción de contenido a nivel de línea, atributos de texto (tipo de idioma); Anotación de caja poligonal (o cuadrilátero, rectángulo) a nivel de columna, transcripción de contenido a nivel de columna, atributos de texto (tipo de idioma). Este conjunto de datos OCR de escenas naturales en coreano e hindi puede usarse para tareas OCR en escenas naturales coreanas e hindúes.

Coreano Hindi Datos OCR Escena natural Datos transliteración OCR

57.645 imágenes datos OCR escenas texto vertical

57.645 datos OCR de escenas de texto verticales. Las escenas de la colección incluyen escenas de calles, placas, vallas publicitarias, carteles, decoraciones, caracteres artísticos, portadas de revistas, etc. La distribución lingüística es china e inglesa (unas pocas). En cuanto a las anotaciones, se pueden realizar anotaciones en cajas rectangulares a nivel de columna (cajas poligonales, cajas de paralelogramo) y transcripciones de contenido a nivel de columna; anotaciones en cajas rectangulares no verticales (cajas poligonales, cajas de paralelogramo) y transcripciones de contenido no verticales. Este conjunto de datos puede utilizarse para diversas tareas de OCR de escenas de texto verticales.

Datos OCR escenas texto vertical Datos imagen OCR Datos OCR Conjunto datos OCR Anotación OCR Adquisición OCR Procesamiento datos OCR Datos reescritura OCR

105.941 imágenes datos OCR 12 idiomas escenas naturales

Los 105.941 datos OCR de escenas naturales abarcan 12 idiomas, incluidos 6 idiomas asiáticos y 6 idiomas europeos, y la colección cubre una variedad de escenas naturales y una variedad de ángulos de toma. En cuanto a la anotación, se etiquetan los cuadros cuadriláteros de texto a nivel de línea y se transcribe el texto a nivel de línea. Este conjunto de datos puede utilizarse para tareas de OCR multilingüe.

Japonés Coreano Indonesio Malayo Vietnamita Tailandés Francés Alemán Italiano Portugués Ruso Español OCR escenas naturales múltiples ángulos fotográficos anotación cuadrilátero nivel línea y transcripción para textos

Indíquenos sus necesidades especiales

Nivel de madurez del proyecto

Fase de exploración inicial (sin especificaciones concretas)

Objetivos definidos, se requiere orientación profesional

Fase de desarrollo u optimización

Expertos en datos y etiquetado con especificaciones claras

Nombre completo *

Teléfono de contacto*

Nombre de la empresa *

Correo electrónico de la empresa *

Requisitos de datos *

Al enviar, acepto la Política de privacidad

Suscríbete a nuestro boletín

Sé el primero en recibir los últimos lanzamientos de productos, soluciones de datos y noticias empresariales de Nexdata.

Datasets listos para usar: Todos los Datasets de categorías; Datasets de LLM; Datasets de visión artificial; Datasets de reconocimiento de voz; Datasets de síntesis de voz; Datasets de OCR; Diccionario de pronunciación; Datasets de CLN

Servicio de Datos: Datos de nube de puntos 3D; Datos de Street View; Datos OCR; Datos de reconocimiento de comportamiento; Datos de reconocimiento de identidad; Datos de reconocimiento de voz; Datos de síntesis de voz; Datos multimodales

Industrias: IA encarnada; IA generativa; Vehículos autónomos; RA/RV; IA conversacional; Hogar inteligente; Comercio minorista; Sanidad inteligente

Empresa: Sobre nosotros; Noticias; Socios; Calidad y seguridad; Eventos
Enlaces: OPENMPD; DataPlus; Datarade

Plataforma: Plataforma
Competencia: Competencia
Recursos: Datasets patrocinados

Mejore su IA con mejores datos

+1(626)594-5598

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

Copyright © 2023 NEXDATA TECHNOLOGY INC

Mapa del sitio Términos y condiciones

Utilizamos cookies para mejorar tu experiencia de navegación, mostrarte anuncios o contenido personalizados y analizar nuestro tráfico. Al hacer clic en "Aceptar todo", aceptas nuestro uso de cookies.

3e00c0be-71df-49c4-9b4d-4073846735ba

d441d410-9535-4cfa-b58d-7166c0437a72