DocChecker

De DocChecker is een functionaliteit die ingezet kan worden om (semi-) geautomatiseerd metadata te extraheren uit bestanden die tekst bevatten, zoals Word- en PDF-bestanden, webpagina's, spreadsheet, enzovoort. De DocChecker is functionaliteit die valt in wat in onderstaande afbeelding is aangegeven als "extractie tools".

De werking van de DocChecker is als volgt:

  • Er wordt om te beginnen aangegeven welke refentiestructuren (SKOS thesauri) gebruikt worden bij het metadateren.
  • Vervolgens worden de te metadateren bestanden door de DocChecker één voor één gescand om te kijken of er matches zijn tussen de labels in de geselecteerde referentie-structuren en de woorden in de betreffende teksten.
  • Matches worden, voorzien van gegevens zoals de referentiestuctuur waar het label in voorkomt en het parent item, aangeboden ter validatie.
  • Vervolgens kunnen de resultaten direct of indirect (import) als metadata in het record van het betreffende bestand opgenomen worden.  

De DocChecker is een optionele module. Zij moet afhankelijk van de specifieke RNA-omgeving en van de beoogde toepassing apart geconfigureerd worden.

  • Trezorix | information architecture | copyright 2010-2012