Datavirtualisatie - de silver bullet voor data-integratie?

Gegevens zijn de basis voor processen en het is dan ook belangrijk dat mensen kunnen beschikken over alle gegevens die relevant zijn om hun werk uit te voren. De kwaliteit van de gegevens dient daarbij aan te sluiten bij de eisen die worden gesteld vanuit het proces. In de praktijk blijkt de informatievoorziening van organisaties onvoldoende op orde om de noodzakelijke gegevens en/of gegevenskwaliteit te leveren. In dit blog item kijk ik naar een aantal oorzaken en positioneer ik datavirtualisatie als een mogelijke oplossingsrichting.

Een deel van de problematiek van het ontsluiten van gegevens wordt veroorzaakt doordat zij zitten opgesloten in applicaties. Zo heeft iedere applicatie zijn eigen gegevensmodel dat niet is afgestemd op het gegevensmodel van andere applicaties. Het betekenisvol integreren van gegevens uit deze verschillende applicaties is een grote uitdaging en gaat in veel gevallen ook niet zonder het verlies van een deel van de betekenis. Daarnaast is het zo dat veel applicaties het simpelweg ook niet mogelijk maken om alle gegevens te ontsluiten op een andere wijze dan via de gebruikersinterface van de applicatie zelf. Steeds meer applicaties bieden wel services waarmee gegevens kunnen worden ontsloten, maar dat gaat vaak slechts om een deel van de gegevens. Gebruikers willen gegevens op allerlei manieren kunnen ontsluiten uit applicaties en daar zijn services niet altijd het juiste middel voor. Denk bijvoorbeeld aan de behoefte van gebruikers om één zoekvraag te kunnen stellen die in één keer alle relevante gegevens in alle gegevensverzamelingen en applicaties ontsluit. Het ontbreekt daarvoor aan breed gedragen standaarden die dat soort zoekfunctionaliteit mogelijk maakt.

Een ander probleem waar organisaties tegenaan lopen is dat gegevens niet op één plaats worden beheerd. Iedere applicatie beheert zijn eigen verzameling gegevens en die verzameling overlapt wel eens deels met die van andere applicaties. Er ontstaat een reëel risico dat gegevens in verschillende applicaties hierdoor gaan verschillen en de gegevensverzamelingen inconsistent worden. Voor een deel zijn dit soort problemen op te lossen met organisatorische en technische maatregelen. Bijvoorbeeld door goede afspraken te maken over gegevensbeheer en de taken en verantwoordelijkheden van medewerkers hierin; we spreken dan over data governance. Vooral de eigenaar van de data diegene die de hele gegevensketen beheert – de data steward – spelen daarin een belangrijke rol. Het is belangrijk om keuzes te maken welke applicatie de bronhouder is van de gegevens en welke interfaces te gebruiken voor gegevensuitwisseling met andere applicaties. Dat kost organisaties veel tijd en energie en krijgt in de praktijk onvoldoende aandacht. Gegevensbeheer blijkt in de praktijk een complexe materie, waardoor het toewijzen van een eigenaar of bronapplicatie lang niet altijd eenvoudig is.

Een ander probleem doet zich voor wanneer gegevens, om wat voor reden dan ook, worden gekopieerd en op fysiek verschillende plaatsen worden opgeslagen. Zolang deze kopieën niet worden aangepast en de gegevens wel op één plaats worden beheerd dan vallen de problemen nog wel mee. Het kopiëren en meervoudig opslaan van gegevens kost echter wel tijd, geld, IT-middelen en inspanning. Vooral in het kader van managementinformatie speelt deze problematiek. In organisaties wordt veel geïnvesteerd in het creëren van datawarehouses waar alle belangrijke gegevens bij elkaar komen om de bron te vormen voor managementinformatie. De gewenste inspanning valt organisaties in de praktijk tegen en de verleiding is groot om rapportages direct op de bronapplicaties uit te voeren. Dat zorgt echter voor een relatief hoge belasting van de betreffende applicaties en maakt integratie van informatie over applicaties heen ook minder goed mogelijk.

De geschetste problemen vragen om een kritische overweging van de plaats van gegevens in relatie tot applicaties. Uiteindelijk zijn applicaties zelf niet direct eigenaar van gegevens, maar verschaffen alleen de noodzakelijke toegang; een manier om de gegevens te ontsluiten. Niet voor niets spreken we in meer algemene zin over informatievoorziening als het geheel van mensen, middelen en activiteiten die zijn gericht op de ondersteuning van bedrijfsprocessen met informatie, inclusief het beheer van de daarvoor benodigde gegevens. Gegevens zouden ook los van de applicatie beschikbaar moeten zijn en zich als een geïntegreerde gegevensverzameling moeten manifesteren. Er is behoefte aan een gegevensinfrastructuur die de bedrijfsgegevens breed beschikbaar stelt aan processen en applicaties. Een gestandaardiseerde gegevensinfrastructuur vergroot de flexibiliteit waar organisaties in toenemende mate behoefte aan hebben. Het creëren van grote geïntegreerde databases is echter ook niet zonder problemen en uitdagingen. Het risico bestaat dat ook hier onevenredig veel tijd in gaat zitten, en dat er een monolithisch geheel ontstaat dat niet meer beheersbaar is. Datavirtualisatie is een opkomende visie op data-integratie die mogelijk een uitweg kan bieden.

Datavirtualisatie zorgt ervoor dat gegevens die zich in allerlei verschillende gegevensverzamelingen bevinden en ook heel anders van aard zijn zich tot als één geïntegreerde (virtuele) gegevensverzameling manifesteren. Een gegevensverzameling die ook als één geheel doorzocht kan worden. Dit is op zich niet nieuw; technologie voor federatieve databases bestaat al jaren. De technologie is echter verder geëvolueerd en is tegenwoordig ook in staat om wijzigingen aan te brengen in virtuele gegevensverzamelingen en deze wijzigingen door te propageren naar de bronsystemen. Dat creëert allerlei nieuwe mogelijkheden voor het ontsluiten en beheren van gegevens. Denk bijvoorbeeld aan gegevensverzamelingen die overlappen door redundantie in het applicatielandschap, maar die wel als één geïntegreerde gegevensverzameling gebruikt zou moeten worden voor applicaties. Ook op het gebied van managementinformatie biedt deze technologie kansen, omdat het creëren van een specifiek datawarehouse (deels) kan worden voorkomen. Het belangrijkste aandachtspunt daarbij is dat de performance van het opvragen van rapportages en de bronsystemen niet onacceptabel wordt. Het tijdelijk bewaren – cachen – van gegevens in deze virtuele tussenlaag kan in een aantal gevallen een voldoende maatregel zijn. Over het algemeen is datavirtualisatie niet geoptimaliseerd op performance. Als snelheid van gegevensverwerking erg belangrijk is dan zijn andere oplossingsrichtingen noodzakelijk. Daarnaast biedt datavirtualisatie ook geen oplossing voor semantische integratie; dit blijft mensenwerk. Datavirtualisatie is daarmee een interessante oplossingsrichting, maar zeker niet een 'silver bullet'.

Weergaven: 359

Reactie van Jan van Til op 9 Januari 2014 op 16.57

Danny,

Hoe gaat Datavirtualisatie ervoor zorgen “dat gegevens die zich in allerlei verschillende gegevensverzamelingen bevinden en ook heel anders van aard zijn zich toch als één geïntegreerde (virtuele) gegevensverzameling manifesteren”?

Hoe gaat, m.a.w., datavirtualisatie, zinvol chocola maken van de appels in de ene gegevensverzameling en de peren in een andere? Hoe gaan appels en peren zich als “één geïntegreerde (virtuele) gegevensverzameling manifesteren”? “Een gegevensverzameling die ook als één geheel doorzocht kan worden”? Iemand zal de technologie die we datavirtualisatie noemen toch eerst wijs moeten maken op welke gemeenschappelijke noemer de appels en de peren gebracht moeten worden om als “één geïntegreerde (virtuele) gegevensverzameling” te kunnen worden toegepast?

Reactie van Danny Greefhorst op 9 Januari 2014 op 17.03

He Jan,

Daar heb je natuurlijk helemaal gelijk in; datavirtualisatie is slechts technologie en lost semantische interoperabiliteit niet op.

Mvgr,

Danny

Reactie van Jan van Til op 10 Januari 2014 op 12.59

Danny,

Als het mag, nog enkele vragen/opmerkingen n.a.v. je artikel.

Inderdaad: de door jou “geschetste problemen vragen om een kritische overweging van de plaats van gegevens in relatie tot applicaties.” Vol-ko-men mee eens! Enkele zinnen later schrijf je: “Gegevens zouden [ook] los van de applicatie beschikbaar moeten zijn”. Waarom ‘ook’? Zou het niet enorm veel beter zijn als gegevens zich domweg los (zeg ook maar: ‘open’) van applicaties manifesteren? Is het niet juist op die manier dat gegevens in principe voor alle applicaties beschikbaar komen?! Is het niet bij uitstek op die manier dat gegevens “zich als een geïntegreerde gegevensverzameling [voor alle applicaties kùnnen] manifesteren”? Daarbij neem ik aan dat je met “geïntegreerde gegevensverzameling” in wezen op een stelsel-van-informatieverzamelingen mikt.

Direct aansluitend schrijf je: “Er is behoefte aan een gegevens[infrastructuur] die de bedrijfsgegevens breed beschikbaar stelt aan processen en applicaties.” Wil er sprake kùnnen zijn van ‘gegevensinfrastructuur’ dan móeten de gegevens zelfs worden losgetrokken van de applicaties. En zo’n gegevensinfrastructuur dient dan te worden uitgerust met, zeg maar even, infrastructurele-applicaties die de toegang tot de gegevensinfrastructuur exclusief regelen. Een veelheid aan gebruikers-applicaties richt dan hun informatie-verzoeken aan een eenheid aan infrastructurele-applicaties met het oog op toegang tot het stelsel-van-informatieverzamelingen. Tegelijkertijd kunnen de informatieverzamelingen ‘achter’ de infrastructurele-applicaties nu op stelselmatige wijze worden geordend (ontdubbelen, geschikt maken voor her-gebruik door wie dan ook).

Daarmee los je naar mijn idee een aantal van de door jou “geschetste problemen” (grotendeels) op:

  • Ontsluiting van gegevens wordt niet langer ernstig bemoeilijkt doordat zij zitten opgesloten achter applicaties.
  • Betekenisvolle integratie/uitwisseling van gegevens tussen verschillende applicaties wordt niet langer ernstig bemoeilijkt doordat iedere applicatie met een eigen gegevensmodel werkt. Uitwisseling vindt nog slechts plaats met de gegevensinfrastructuur. Afstemming op model-niveau tussen applicaties is niet meer nodig.
  • ‘Onverwachte’ vragen van gebruikers kunnen via de gegevensinfrastructuur veel logischer, gemakkelijker, sneller enzovoort van antwoord worden voorzien.
  • In de gegevensinfrastructuur (stelselmatige gegevensordening) zijn gegevens nog slechts enkelvoudig aanwezig. Informatieverwerking wordt (een stuk) goedkoper. Inconsistentie is (zo goed als) verdwenen.
  • Houderschap, gebruik en eigendomstoewijzing van gegevens is niet langer een crime, maar wordt een stuk eenduidger/eenvoudiger.

 

Reactie van Danny Greefhorst op 10 Januari 2014 op 14.54

He Jan,

Applicaties zijn een middel om gegevens te ontsluiten; zonder een applicatie geen toegang tot gegevens voor een eindgebruiker. We zijn het met elkaar eens dat deze gegevens idealiter geen onderdeel zijn van de applicatie maar los daarvan worden beheerd en beschikbaar zijn voor meerdere applicaties. 

Mvgr,
Danny

Opmerking

Je moet lid zijn van Via Nova Architectura om reacties te kunnen toevoegen!

Wordt lid van Via Nova Architectura

Sponsoren

Advertenties

Je kunt hier adverteren

© 2019   Gemaakt door Stichting Digital Architecture.   Verzorgd door

Banners  |  Een probleem rapporteren?  |  Algemene voorwaarden