Publicado en: Mar 30, 2022
Amazon Textract es un servicio de machine learning que facilita la extracción de texto y datos a partir de prácticamente cualquier documento. Mejoramos continuamente los modelos de machine learning subyacentes en función de los comentarios realizados por los clientes para ofrecer una precisión aún mayor. Hoy nos complace anunciar algunas mejoras de calidad en nuestras características de detección de tablas y casillas de verificación.
Los modelos más recientes de Tablas admiten la detección de celdas combinadas y la identificación de encabezados de columna. Específicamente, ahora es posible detectar las celdas fusionadas en un documento procesado mediante la característica AnalyzeDocument-Tables a través del “Type”: “MERGED_CELL”, así como identificar las celdas que conforman el encabezado de la columna a través del identificador “EntityTypes”: [“COLUMN_HEADER”]. Además, nos complace anunciar mejoras de calidad en nuestra característica de Tablas. A partir de hoy, Textract detecta con mayor precisión los límites exteriores de las tablas, los límites de las filas y columnas y el contenido de las tablas. Ahora los clientes pueden esperar una mayor precisión con un menor posprocesamiento en la extracción de tablas incluidas en una amplia variedad de tipos de documentos, como los que se encuentran en los sectores de financiación, seguros, servicios financieros, asuntos legales, sanidad, energía y público.
Asimismo, hemos mejorado la capacidad de detección de casillas de verificación en el modelo de Formularios. Gracias a esta mejora, ahora puede aprovechar Amazon Textract para detectar con mayor precisión la información seleccionada o no seleccionada a mano en las casillas de verificación de los campos de formulario.
Para comenzar, inicie sesión en la consola de Amazon Textract para probar la más reciente característica de detección de tablas y casillas de verificación. Si desea obtener más información sobre las capacidades de Textract, visite el sitio web de Amazon Textract, la guía para desarrolladores o la página de recursos.