PDFlib | TET / TET IFilter

Home
Prodotti
TET / TET IFilter

Sono disponibili TET 4.3 e TET PDF IFilter 4.3

Dal 28 Maggio 2014 sono disponibili le versioni di manutenzione di TET 4.3, TET PDF IFilter 4.3 e il plugin gratuito TET 4.7 per Adobe Acrobat. Questi aggiornamenti richiedono un piano di aggiornamento valido o l'acquisto di una nuova licenza.

Novità in TET 4.3

Supporto alle informazioni di risoluzione nelle immagini TIFF generate
Workaround per numerosi tipi di PDF malformati
Robustezza migliorata con input non conformi
Miglioramenti nel mapping Unicode, tra cui valori CUS giapponesi preservati in gaiji e mapping Thai nei valori CUS Microsoft
Miglioramenti nella rilevazione delle parole con spaziature particolari
Eseguibili aggiornati per iOS, Android, Windows Compact Embedded e Embedded Linux
Miglioramenti minori nei binding
Numerosi miglioramenti e bug fix

Novità in TET 4.2

Modalità di riparazione di PDF danneggiati migliorata e robustezza aumentata nella gestione di dati malformati.
Migliorata la rilevazione delle parole nel testo CJK ed aggiunta l'opzione "ideographic".
Aggiunta la chiave "docstyle=cad".
Estrazione di immagini in formato JBIG2.
Migliorata l'unione delle immagini.
Migliorato l'ordine delle immagini in TETML.
Possibilità di omettere il profilo ICC nelle immagini estratte.
Possibilità di utilizzare la compressione LZW nelle immagini TIFF estratte in alternativa alla compressione Flate (Adobe Flate).

TET 4

PDFlib TET (Text Extraction Toolkit) estrae in modo affidabile testo, immagini e metadati da documenti PDF. TET rende disponibile il contenuto di testo di un PDF come stringhe Unicode, glifi dettagliati e informazioni sul tipo di carattere così come la posizione all'interno della pagina. Le immagini vengono estratte in formato raster comune. TET facoltativamente converte documenti PDF in un formato basato su XML chiamato TETML che contiene testo, immagini, e metadati come risorsa informativa. TET supporta Cinese, Giapponese e Coreano (CJK) e lingue scritte da destra verso sinistra, come l'ebraico e l'arabo.

TET contiene algoritmi avanzati di analisi dei contenuti per la determinazione dei confini di parola, il raggruppamento del testo in colonne e la rimozione di testo ridondante. Utilizzando l'interfaccia integrata PCOS è possibile recuperare oggetti arbitrari dal PDF, come metadati, elementi interattivi, ecc. TET è adatto per uso server (thread-safe e robusto, senza perdite di memoria e con gestione efficiente delle eccezioni).

Nuove funzionalità in TET 4

TET 4 offre miglioramenti prestazionali notevoli ed è più veloce rispetto alla precedente versione con molte tipologie di documenti. Soprattutto documenti molto grandi fino a centinaia di migliaia di pagine beneficeranno di maggiore velocità e minor consumo di memoria.

I testi estratti risultanti dal formato PDF sono perfezionati grazie alla rimozione dell'ombra, alla rilevazione dei limiti di parola, alla de-hyphenation, e al riconoscimento dell'apice e pedice. Altre soluzioni per documenti PDF non conformi migliorano la robustezza di estrazione del testo; la modalità di ripristino avanzata è in grado di estrarre con successo il testo da un PDF danneggiato.

TET 4 riorganizza il testo bidirezionale in arabo o documenti in ebraico secondo il giusto ordine logico. I controlli Unicode successivi all'estrazione offrono la chiusura, la decomposizione e la normalizzazione secondo lo standard Unicode, che è utile per adattare il testo estratto in base ai requisiti dell'applicazione.

TET PDF IFilter 4

Basato su tecnologia brevettata TET, TET PDF IFilter è una robusta implementazione dell'interfaccia di indicizzazione di Microsoft IFilter. Funziona con tutti i prodotti di ricerca e recupero, che supportano l'interfaccia IFilter, ad esempio SharePoint e SQL Server. La nuova funzione di rilevamento lingua assegna automaticamente il linguaggio naturale corretto al testo, importante al fine di determinare la parola corretta e migliorare quindi l'esperienza di ricerca.

TET Plugin 4

TET è disponibile anche come plugin gratuito per Adobe Acrobat. Questo plugin permette di testare interattivamente e valutare la qualità superiore di estrazione del testo di TET. Il nuovo plugin TET plugin supporta la sintassi di ricerca per il testo Unicode e può mettere in evidenza tutte le hit di ricerca in una pagina.

TET Cookbook

Il TET "Cookbook (libro di ricette)" (in Inglese) è una raccolta di esempi di programmazione che dimostrano l'uso di TET per l'estrazione di testo e delle immagini in vari casi. Diversi esempi su "Cookbook" mostrano come combinare i prodotti PDFlib TET e PDI, al fine di migliorare i documenti PDF, come ad esempio come aggiungere segnalibri o collegamenti sulla base del testo sulla pagina.