Una delle sfide che riguardano tutti i volti aziendali è la conversione di forme in un utile formato digitale. Questo in genere ha comportato l'utilizzo di impiegati di inserimento dati umani per inserire i dati nel computer. Lo stato dell'arte prevedeva l'uso dell'OCR per la lettura automatica dei moduli, ma il CEO di AWS Andy Jassy ha spiegato che l'OCR è fondamentalmente solo un lettore di testo stupido. Non riconosce i tipi di testo. Amazon ha voluto cambiarlo e oggi ha annunciato Amazon Textract, uno strumento OCR intelligente per trasferire i dati dai moduli a un formato digitale più utilizzabile.
In un esempio, ha mostrato un modulo con le tabelle. L'OCR regolare non riconosceva la tabella e la interpretava come una stringa di testo. Textract è progettato per riconoscere elementi di pagina comuni come una tabella e tirare i dati in modo sensato.
Jassy ha detto che anche le forme cambiano spesso, e se si utilizza un modello come soluzione per la mancanza di intelligenza di OCR, il modello si rompe se si sposta qualcosa. Per risolvere il problema, Textract è abbastanza intelligente da comprendere tipi di dati comuni come numeri di previdenza sociale, date di nascita e indirizzi e li interpreta correttamente, indipendentemente da dove cadono sulla pagina.
"Abbiamo insegnato a Textract a riconoscere che questa serie di personaggi è una data di nascita e questo è un numero di previdenza sociale. Se le forme cambiano, Textract non mancherà ", ha spiegato Jassy.