1. Home
  2. Prodotti
  3. TET / TET IFilter
Product

Novità in PDFlib TET 4.0

PDFlib GmbH annuncia la disponibilità delle nuove versioni dei prodotti PDFlib TET 4, PDFlib TET PDF IFilter 4 e TET Plugin 4.

La nuova versione di TET, il motore di estrazione di contenuti PDF, migliora l'analisi semantica delle pagine, supporta le lingue scritte da destra verso sinistra come l'arabo e l'ebraico, e offre controlli avanzati Unicode post-elaborazione.

TET 4.0

PDFlib TET (Text Extraction Toolkit) estrae in modo affidabile testo, immagini e metadati da documenti PDF. TET rende disponibile il contenuto di testo di un PDF come stringhe Unicode, glifi dettagliati e informazioni sul tipo di carattere così come la posizione all'interno della pagina. Le immagini vengono estratte in formato raster comune. TET facoltativamente converte documenti PDF in un formato basato su XML chiamato TETML che contiene testo, immagini, e metadati come risorsa informativa. TET supporta Cinese, Giapponese e Coreano (CJK) e lingue scritte da destra verso sinistra, come l'ebraico e l'arabo.

TET contiene algoritmi avanzati di analisi dei contenuti per la determinazione dei confini di parola, il raggruppamento del testo in colonne e la rimozione di testo ridondante. Utilizzando l'interfaccia integrata PCOS è possibile recuperare oggetti arbitrari dal PDF, come metadati, elementi interattivi, ecc. TET è adatto per uso server (thread-safe e robusto, senza perdite di memoria e con gestione efficiente delle eccezioni).

Nuove funzionalità in TET 4.0

TET 4.0 offre miglioramenti prestazionali notevoli ed è più veloce rispetto alla precedente versione con molte tipologie di documenti. Soprattutto documenti molto grandi fino a centinaia di migliaia di pagine beneficeranno di maggiore velocità e minor consumo di memoria.

I testi estratti risultanti dal formato PDF sono perfezionati grazie alla rimozione dell'ombra, alla rilevazione dei limiti di parola, alla de-hyphenation, e al riconoscimento dell'apice e pedice. Altre soluzioni per documenti PDF non conformi migliorano la robustezza di estrazione del testo; la modalità di ripristino avanzata è in grado di estrarre con successo il testo da un PDF danneggiato.

TET 4 riorganizza il testo bidirezionale in arabo o documenti in ebraico secondo il giusto ordine logico. I controlli Unicode successivi all'estrazione offrono la chiusura, la decomposizione e la normalizzazione secondo lo standard Unicode, che è utile per adattare il testo estratto in base ai requisiti dell'applicazione.

TET PDF IFilter 4.0

Basato su tecnologia brevettata TET, TET PDF IFilter è una robusta implementazione dell'interfaccia di indicizzazione di Microsoft IFilter. Funziona con tutti i prodotti di ricerca e recupero, che supportano l'interfaccia IFilter, ad esempio SharePoint e SQL Server. La nuova funzione di rilevamento lingua assegna automaticamente il linguaggio naturale corretto al testo, importante al fine di determinare la parola corretta e migliorare quindi l'esperienza di ricerca.

TET Plugin 4.0

TET è disponibile anche come plugin gratuito per Adobe Acrobat. Questo plugin permette di testare interattivamente e valutare la qualità superiore di estrazione del testo di TET. Il nuovo plugin TET plugin supporta la sintassi di ricerca per il testo Unicode e può mettere in evidenza tutte le hit di ricerca in una pagina.

TET Cookbook

Il TET "Cookbook (libro di ricette)" (in Inglese) è una raccolta di esempi di programmazione che dimostrano l'uso di TET per l'estrazione di testo e delle immagini in vari casi. Diversi esempi su "Cookbook" mostrano come combinare i prodotti PDFlib TET e PDI, al fine di migliorare i documenti PDF, come ad esempio come aggiungere segnalibri o collegamenti sulla base del testo sulla pagina.

Prezzi e disponibilità

TET 4 è disponibile per tutte le maggiori piattaforme.

Consulta il listino prezzi nella sezione dedicata.