1. Home
  2. Prodotti
  3. TET / TET IFilter
Product

TET PDF IFilter

TET PDF IFilter permette di estrarre testo e metadati da documenti PDF e li rende disponibili alla ricerca attraverso un'applicazione per Windows. E' così possibile ricercare i documenti in locale, attraverso un server aziendale o via web. TET PDF IFilter è basato sul brevetto PDFlib Text Extraction Toolkit (TET), lo strumento di sviluppo per l'estrazione dei dati.

TET PDF IFilter è una robusta implementazione dell'interfaccia di indicizzazione Microsoft IFilter. Supporta qualsiasi applicazione compatibile con IFilter, come SharePoint e SQL Server. Queste applicazioni usano particolari programmi, chiamati IFilters, per ricercare svariati formati di file. TET PDF IFilter è dedicato ai documenti PDF. L'interfaccia grafica per la ricerca può essere Windows Explorer così come un database frontend, uno script o un'applicazione personalizzata. Altrimenti è possibile eseguire query di ricerca direttamente nel programma senza alcuna interfaccia grafica.

Tecnologia TET

La prima versione di PDFlib TET, il motore di TET PDF IFilter, è stata rilasciata nel 2002 ed è utilizzata in tutto il mondo in ambienti server e desktop. In alternativa all'estrazione dei testi come testo puro, TET estrae anche in formato XML. TET inoltre è disponibile come plugin gratuito per Acrobat. L'utilizzo di questo plugin permette di conoscere le potenzialità di TET.

Vantaggi

TET PDF IFilter offre i seguenti vantaggi:

  • Indicizzazione non solo di contenuti, ma anche di metadati, bookmark, allegati e pacchetti.
  • Estrazione di testo dove Acrobat fallisce.
  • Indicizzazione dei metadati XMP delle immagini.
  • Performance: thread-safe, veloce e robusto, 32 e 64 bit.
  • Prodotto standalone senza dipendenza particolari.
  • Rilevamento automatico di linguaggi/script.
  • Supporto da parte di un team dedicato.

Ricerca aziendale

TET PDF IFilter è disponibile in versione a 32 e 64 bit completamente thread-safe. E' possibile realizzare soluzioni aziendali interfacciando TET PDF IFilter con:

  • Microsoft Office SharePoint Server (MOSS)
  • Microsoft Search Server 2008 e Search Server 2008 Express
  • Microsoft SQL Server
  • Microsoft Exchange Server
  • Altri programmi di Microsoft e terze parti che supportano l'interfaccia IFilter

Ricerca desktop

TET PDF IFilter può essere utilizzato per ricerche desktop, ad esempio con:

  • Windows Desktop Search (WDS): integrato in Windows Vista (disponibile anche come add-on gratuito per Windows XP)
  • Windows Indexing Service

PDF supportati

TET PDF IFilter supporta i seguenti formati:

  • Tutte le versioni di PDF fino alla versione 1.8 (Acrobat 9)
  • PDF crittografati che non richiedono una password per la consultazione
  • PDF danneggiati e possibilmente riparabili

Metdati XMP ed altre informazioni

L'implementazione avanzata di TET PDF IFilter supporta i metadati. Indicizza i metadati XMP (Adobe XML-based metadata description language) così come altre informazioni sul documento. L'indicizzazione dei metadati può essere configurata in molti livelli:

  • Informazioni sul documento, campi Dublin Core e altre proprietà XMP vengono convertite nell'equivalente proprietà Windows, come titolo, soggetto, autore, ecc.
  • TET PDF IFilter aggiunge utili pseudo-proprietà, come dimensione della pagina, livello di conformità PDF/A, nomi dei font.
  • Tutte le più importanti proprietà XMP possono essere ricercate, come dc:rights, xmpRights:UsageTerms, xmp:CreatorTool.
  • Possono essere ricercate anche proprietà XMP personalizzate, come classificazioni aziendali e estensioni PDF/A.
  • Anche i metedati XMP relativi ad un'immagine possono essere indicizzati.

TET PDF IFilter può eventualmente salvare i metadati in formato testo, in modo da poter essere utilizzati da motori che non supportano i metadati, come SQL Server.

Metadati XMP delle immagini

TET PDF IFilter also supporta i metadati XMP relativi alle immagini. Nei sistemi moderni, le immagini sono arricchite di vari metadati, dal modello di fotocamera digitale utilizzata, alle modifiche eseguite con Photoshop, al layout utilizzato. TET PDF IFilter estrae questi dati e li rende disponibili alla ricerca. Per esempio, è possibile ricercare immagini appartenenti ad una determinata categoria o realizzate da un determinato fotografo.

Internazionalizzazione

TET PDF IFilter supporta l'estrazione di testo in Cinese, Giapponese e Coreano (CJK). Tutti gli encoding CJK sono riconosciuti così come la scrittura orizzontale e verticale.

Il rilevamento automatico delle impostazioni di localizzazione (lingua e regione) sono inoltre funzionalità molto utilizzate in Estremo Oriente.

PDF è molto più che testo impaginato

TET PDF IFilter tratta i documenti PDF come se fossero contenitori al cui interno sono salvate numerose informazioni. TET PDF IFilter le indicizza:

  • Contenuti
  • Segnalibri ed etichette
  • PDF inclusi ed indicizzati ricorsivamente
  • Pacchetti (i pacchetti sono una funzionalità introdotta in Acrobat 8 per raggruppare i PDF, la funzionalità è chiamata portfolio in Acrobat 9)