Import hulpmiddelen

Datasets kunnen op verschillende manieren in de RNA-omgeving geïmporteerd worden en daarbij omgezet worden naar thesaurusstructuren of metadatarecords. Zo kunnen sets van linked data in XML-formaat en thesauri die zijn opgezet volgens het SKOS-formaat met behulp van de Edit API geïmporteerd worden. Bij deze methode is enige programmeerkennis vereist.

Een andere, heel gebruiksvriendelijke manier van binnenhalen van data maakt gebruik van de bekende spreadsheet applicatie MS Excel. Dit werkt als volgt :

  • De brondata is beschikbaar in tabelvorm, of wordt - als dit niet het geval is - als eerste in tabelvorm omgezet (hiervoor is standaard functionaliteit beschikbaar in de meeste database applicaties). In de tabel vertegenwoordigen de rijen de items die uiteindelijk in de RNA-omgeving moeten komen, en de kolommen zijn de eigenschappen.
  • De tabel wordt ingelezen in een MS Excel workbook (spreadsheet).
  • Daarnaast wordt er een RNA Table Converter geconfigureerd voor het inlezen, aanpassen en doorgeven van de specifieke brondata. Er zijn twee typen converter: een Thesaurus Converter (THC), met functionaliteit voor het bewerken van hiërarchische structuren, en een MetadataRecord Converter (MRC), waarmee platte sets metadatarecords ingelezen en gecontroleerd kunnen worden. De converters dienen als herbruikbare templates voor latere imports van soortgelijke data.
  • De brondata in de spreadsheet wordt nu ingelezen in de geprepareerde Table Converter en van daar uit omgezet in een RNA importbestand in XML fornaat. Deze beide handelingen worden via een druk op de knop gedaan vanuit de converter.
  • De laatst stap is het binnenhalen van de data in de RNA-omgeving. Dit wordt vanuit de RNA Toolset gedaan met de import manager.

In onderstaand overzicht worden de belangrjkste functies van de beide RNA Table Converters naast elkaar gezet, vervolgens worden deze in grote lijnen toegelicht. Gedetailleerde infrormatie over het configureren van de Table Converters is te vinden in de handleiding "RNA Table Converters".

Inlezen van data

In de Table Converters worden de brondata zodanig omgezet dat de rijen als items in de RNA-omgeving geïmporteerd kunnen worden. Daarvoor moet er het volgende gebeuren:

  • In de converter worden uit de brondata alleen de bruikbare kolommen ingelezen, dat wil zeggen: de kolommen met data die nuttig zijn in de RNA-omgeving.
  • In de converter krijgen de kolommen namen die exact overeenkomen met de namen van eigenschappen uit de RNA-omgeving. Bovendien wordt bij labels aangegeven om welke taal het gaat.
  • Tenslotte kunnen er in de converter met de standaard Excel functionaliteit wijzigingen op de data gedaan worden.

In onderstaande afbeelding wordt dit geïllusteeerd.

  • In kolom O wordt van boven naar beneden het volgende aangegeven: het gaat om een prefLabel (preferred label) met als taal Nederlands (dut), waarvan de data in bron voorkomt onder de kolom "naam". Vervolgens staan onder de dikke zwarte lijn de ingelezen waarden ("drukwerk", "albumhoes", enzovoort).
  • In kolom P is het ongeveer hetzelfde, alleen gaat het hier om een preferred label in de taal Engels (eng) en zijn de data in de bron uit de kolom "name" gehaald.
  • In kolom S wordt van boven naar beneden aangegeven dat het om een item van het type "DistributionType" gaat, "_sys" wil zeggen dat de data in deze kolom niet uit de bron gehaald wordt maar bepaald wordt door de formule eronder, en die zegt dat alles een DistributionType is ("=S$2").
  • In kolom T wordt via een selectielijst een predicaat gekozen.

De talen van de labels, de item types en de predicaten worden via selectielijsten zoals in de afbeelding gekozen. Daartoe worden ze vooraf ingelezen. Dus alle data in de converters wordt met een druk op de knop van buitenaf ingelezen. Vervolgens kunnen ze - ook weer met een druk op de knop - omgezet worden in een RNA importbestand (XML).

Controle op identifiers

In een RNA-omgeving zijn er voor alle items twee soorten identifiers:

  • Systeem-identifers: deze identifiers worden bij het aanmaken van items door het systeem toegekend. Ze hebben de vorm van een URI, zoals "http://www.rnaproject.org/data/fcf5fd2b...". Deze identifiers dienen als algemene identifiers, binnen en buiten RNA-omgevingen.
  • Import-identifiers: deze identifiers kunnen worden aangemaakt in importsets, bijvoorbeeld in de Table Converters. Ze zorgen voor identificatie van items bij imports: als er al een item met gelijke import-identifier bestaat, dan zal deze niet opnieuw aangemaakt worden, maar geupdate met de gegevens van het overeenkomstige item uit het importbestand.

De manier waarop import-identifiers samengesteld worden is geheel vrij. Maar in de praktijk blijkt het handig te zijn om ze een betekenisvolle code te geven. In onderstaande afbeelding zijn de import-identifiers te zien in kolom B. Ze zijn in dit geval samengesteld uit een code voor de specifieke RNA-omgeving ("rce"), het item type ("distributiontype") en het systeem label van het item. Hierbij is alles ontdaan van hoofdletters en speciale leestekens.

In de afbeelding is ook te zien hoe de opbouw van een structuur bij import vastgelegd wordt: door aan items de import-identifier van eventuele ouder items (parent) mee te geven. Door hun parent id's is bepaald dat de items "AlbumCover" tot en met "Stamp" kindjes zijn van het item "Print".

Er wordt op verschillende manieren gecontroleerd of er geen identieke identifiers aanwezig zijn:

  • De import-identifiers worden in de converter volgens een van te voren bepaalde formule aangemaakt bij het inlezen van de brondata. Er wordt daarbij gecontroleerd of er geen dubbele identifiers aangemaakt worden.
  • Bij eventuele verdere bewerking van de data in de converter kan deze controle opnieuw worden uitgevoerd.
  • Bij het importeren van de data in de RNA-omgeving wordt tenslotte weer op dubbele identifiers gecontroleer. Worden er dubbelingen geconstateerd, dan wordt de import niet uitgevoerd.

In de MetadataRecord Converter kunnen rijen met een identieke identifier via een "merge" functie samengevoegd worden. Hierbij worden de waarden van overeenkomstige eigenschappen bij elkaar gezet.

Bewerkingen

Met de functionaliteit van Excel kunnen in de converters bewerkingen op de data geprogrammeerd worden. Voorbeelden van vaak voorkomende bewerkingen zijn:

  • Samenstellen van import-identifiers, zoals in het voorbeeld hierboven.
  • Wegfilteren van leestekens die niet door het XML-formaat geaccepteerd worden en daarmee het importbestand ongeldig maken.
  • Omzetten van scheidingstekens uit het bronbestand, bijvoorbeeld ";", naar het standaard RNA scheidingsteken " | ".
  • Omzetten van datumnotatie in de vorm van "dd-mm-jjjj" naar de standaard ISO-notatie "jjjj-mm-dd".
  • Samenvoegen van waarden uit meerdere kolommen. Een voorbeeld is om uit de kolommen BeginDatum en EindDatum waarden - bijvoorbeeld "2005" resp. "2010" - samen te voegen tot een periode volgens ISO-notatie: "2005/2010".

In onderstaande illustratie is bovenin de formule te zien die zorgt dat als er in de kolom AB een waarde staat, deze geplakt wordt achter de string "http://www.molens.nl/ ... &mid=". Bij elkaar krijgt de eigenschap hasLink hiermee een werkende link naar een webpagina.

In de Thesaurus Converter zijn er bovendien bewerkingen mogelijk die te maken hebben met de opbouw van de structuur van de thesaurus. In onderstaande afbeelding bijvoorbeeld zijn eerst met de "insert row" functie twee items toegevoegd: "Compactcassette" en MicroCassette". In de afbeelding daaronder zijn ze beiden met de CTRL-toets één positie naar rechts verplaatst, waardoor ze kindjes zijn geworden van het item "Audiocassette" (let op hun parent identifiers in de linker kolom.

Export naar een RNA-omgeving

Met de functie "export to RNA" kunnen de data in de converter omgezet worden naar een RNA importbestand. Vanuit de RNA-omgeving kan dit importbestand geladen worden en kunnen de oorspronkelijke rijen omgezet worden naar RNA items. Daarbij kan je aangegeven in welke structuur en onder welk item in die structuur de nieuwe items geplaatst moeten worden. Gaat het bij de import om updates van bestaande items, dan zal er aan de plaats van de items niets veranderd worden.

Omdat van een bepaalde configuratie van een converter ook de bewerkingsformules opgeslagen worden, kan deze hergebruikt worden. Brondata die voldoen aan het oorspronkelijke formaat kunnen opnieuw ingelezen, bewerkt en in de RNA-omgeving geïmporteerd worden. Dit kan gebruikt worden bij updates naar aanleiding van wijzigingen in de brondata, bij het overzetten van data van een staging-omgeving naar een presentatie-omgeving, bij het in stukjes importeren van grote hoeveelheden data, enzovoort.

  • Trezorix | information architecture | copyright 2010-2012