Asi každý bude so mnou súhlasiť, že mať kvalitné dáta je nevyhnutné.

V predchádzajúcom článku som písal o tom, že slogan „Naše technológie a naše skúsenosti vám garantujú najvyššiu možnú kvalitu“ znie síce lákavo a profesionálne, ale v skutočnosti je to len slogan bez obsahu. Technológie ani skúsenosti v oblasti spracovania dát kvalitu negarantujú a najvyššia možná kvalita je len nič nehovoriaci abstraktný pojem. Samozrejme, existuje spôsob, ako je možné kvalitu údajov garantovať. Je potrebné definovať parametre a úroveň kvality údajov, následne navrhnúť a implementovať proces spracovania údajov a nakoniec zaviesť systém kontroly kvality údajov.

Čo sú to parametre kvality pre dáta? Neexistujú univerzálne parametre kvality, ktoré budú vyhovovať každému zákazníkovi pre každý projekt. Pri spracovaní údajov z papierových dokumentov sa zvyčajne uplatňujú tieto parametre kvality:

  1. Znaková presnosť (znaková kvalita) – spracované znaky (číslo, text) z daného poľa zodpovedajú hodnotám na papierovom dokumente, jednoducho povedané spracovaný údaj neobsahuje „preklepy“.
  2. Relevantnosť – spracovaný údaj je obsahovo relevantný. Napr. pri obchodných zmluvách nás zaujíma dátum účinnosti zmluvy. Niekedy je na zmluve uvedený explicitne ako dátum účinnosti, niekedy je zmluva účinná dňom podpisu, niekedy dňom zverejnenia. Relevantné vyplnenie tohto poľa je závislé od definovaných pravidiel a od operátora, ktorý tieto údaje na základe týchto pravidiel spracúva.
  3. Úplnosť – do dátovej formy je prevedený celý požadovaný obsah poľa. Toto je dôležité predovšetkým pri viacslovných poliach. Napr. – a zostaňme ešte pri zmluvách – pole Predmet zmluvy je potrebné správne identifikovať zo znenia zmluvy a spracovať ho celé do dátového poľa.
  4. Kompletnosť – hovorí o tom, či sú spracované všetky polia, ktoré sa požadujú. Pokiaľ sa údaj v dokumente nachádza, musí byť spracovaný aj do dátovej formy. Niekedy sa však niektoré údaje v dokumente nenachádzajú a nie je možné ich spracovať. Pri spracovaní teda pole zostane prázdne.
  5. Formát – vhodným príkladom je opäť dátum, ktorý môže byť napísaný rôznymi spôsobmi. Pre prácu s údajmi je potrebné, aby dátumy z rôznych dokumentov boli uložené v rovnakom formáte. Samozrejme, je možné robiť konsolidáciu údajov po spracovaní, ale často je oveľa jednoduchšie zapisovať údaj už v konsolidovanej forme. To si opäť vyžaduje aktivitu operátora, ktorý okrem toho, že pole identifikuje a prepíše, prepis vykoná priamo v definovanom formáte.

Keď už máme určené parametre kvality, je potrebné určiť mieru kvality, teda číselne vymedziť, akú kvalitu požadujeme. Ale o tom sa bude rozprávať až v ďalšom článku.