Plán kvality dát: Vlastníci, definície metrík a validácie

Plán Kvality Dát: Vlastníci, definície metrík a validácie

Prečo potrebujeme plán kvality dát

Plán kvality dát je riadiaci dokument, ktorý stanovuje vlastníctvo dát, presnú definíciu metrík kvality a systematiku validácií v dátovom pipeline. Jeho cieľom je zabezpečiť, aby dáta boli spoľahlivé, auditovateľné a použiteľné pre analytiku, reporting, AI/ML a prevádzkové procesy. Dokument tvorí základ pre dátovú správu (data governance), kontrakty medzi producentmi a konzumentmi dát, aj pre SLA/SLO metriky, podľa ktorých sa riadi prevádzka.

Rozsah a princípy plánu

  • Rozsah: zdrojové systémy, integračné vrstvy (ETL/ELT), dátové sklady/jazierka, semantická vrstva, reporty a API.
  • Princípy: „quality by design“, automatizácia, merateľnosť, transparentnosť, minimalizmus v metrikách (menej, ale dôležité), „shift-left“ validácie pri vstupe.
  • Riadenie rizika: sústredenie na kritické dátové domény (financie, zákazníci, súlad s reguláciou).

Model vlastníctva: roly a zodpovednosti

Jasné vlastníctvo eliminuje „bezprízorné dáta“ a urýchľuje riešenie incidentov. Odporúčaný model:

  • Data Owner (Biznis vlastník): schvaľuje definície, prahové hodnoty a akceptačné kritériá; rozhoduje o výnimkách.
  • Data Steward: kurátor kvality; spravuje katalóg, glosár a metriky; koordinuje nápravy.
  • Data Custodian (IT/Platforma): zabezpečuje infraštruktúru, automatizované testy a monitorovanie.
  • Data Producer: tím zdrojovej aplikácie; garantuje kvalitu na vstupe a dodržiavanie dátových kontraktov.
  • Data Consumer: BI/AI/prevádzka; hlási odchýlky, participuje na UAT a definícii biznis pravidiel.

RACI matica pre kvalitu dát

Aktivita Owner Steward Custodian Producer Consumer
Definícia metrík A R C C I
Nastavenie validácií C R A R I
Monitorovanie a alerty I R A C I
Incident management A R R C C
Schvaľovanie výnimiek A R C C I

Glosár a dátové kontrakty

Bez jednotného jazyka nie je stabilná kvalita. Plán vyžaduje:

  • Biznis glosár: definície entít (zákazník, objednávka), agregácií (výnos), periodicít a časovej platnosti.
  • Dátové kontrakty: schémy, typy, povinné polia, kardinality, SLAs na latenciu a aktualizáciu, pravidlá verziovania (schema evolution).

Taxonómia metrík kvality

  • Presnosť (Accuracy): miera súladu s realitou alebo referenčným zdrojom.
  • Úplnosť (Completeness): podiel vyplnených povinných polí a záznamov.
  • Jedinečnosť (Uniqueness): absencia duplicitných entít a kľúčov.
  • Platnosť (Validity): súlad s doménami hodnôt, regexmi, typmi, referenčnými tabuľkami.
  • Konzistentnosť (Consistency): súlad naprieč systémami/vrstvami (napr. sumy v DWH vs. ERP).
  • Včasnosť (Timeliness): oneskorenie voči dohodnutej latencii (SLA/SLO).
  • Integrita (Integrity): referenčná a transakčná integrita (FK, bilancie, rovnice).
  • Traceability: sledovateľnosť pôvodu (lineage), audit trail transformácií.

Šablóna definície metrík (príklad)

Názov metriky Definícia Vzorec Zdroj Prahy (Warn/Error) Periodicita Vlastník
Úplnosť e-mailu zákazníka Podiel riadkov s ne-NULL a ne-prázdnym e-mailom (počet_validných / počet_všetkých) × 100 % CRM.customers.email 95 % / 90 % denne Data Steward – Doména Zákazník
Platnosť formátu e-mailu Súlad s regex vzorom RFC-like počet_regex_ok / počet_všetkých CRM.customers.email 98 % / 95 % denne Data Steward – Doména Zákazník
Jedinečnosť zákazníckeho ID Podiel unikátnych customer_id count_distinct(customer_id) / count(*) CRM.customers.customer_id 100 % / 99,9 % nepretržite Owner – Komerčná prevádzka

Validácie: typy testov a kde ich spúšťať

  • Schémové testy: typy, povinnosť polí, dĺžky, enumy, primárne kľúče.
  • Referenčné testy: cudzie kľúče, mapovanie na referenčné tabuľky (krajiny, meny).
  • Biznis pravidlá: doménové logiky (napr. dátum faktúry ≤ dátum dodania), rovnice, bilancie.
  • Distribučné/anomálne testy: odchýlky v histogramoch, priemer/medián/σ, sezónnosť.
  • Lineage konzistencia: kontrola zachovania počtov a súm po transformáciách (source→staging→DWH→mart).
  • Contract testy na API/eventy: validácia payloadov, verzií a spätnej kompatibility.

Životný cyklus dátových validácií

  1. Návrh: identifikácia kritických polí a rizík; návrh pravidiel a prahov.
  2. Implementácia: infra testy v pipeline (ETL/ELT), build-time testy (CI), runtime monitorovanie.
  3. Kalibrácia prahov: A/B porovnanie, analýza historických rozdelení, sezónne výnimky.
  4. Prevádzka: alerty, dashboardy, incidenty, ticketing, nápravné opatrenia (CAPA).
  5. Revízia: kvartálne prehodnocovanie relevancie pravidiel a metrík.

Architektúra monitorovania kvality

  • Observabilita dát: metriky objemu, čerstvosti, schémových zmien, výpadkov.
  • Alerting: multi-úrovňové (INFO/WARN/ERROR), on-call rotácie, tichý režim pre plánované výpadky.
  • Dashboardy: domény × metriky × SLA/SLO; drill-down na tabuľky/stĺpce.
  • Audit trail: logy validácií, verzovanie pravidiel, podpisy release-ov, dôkaz o kontrole.

SLA, SLO a akceptačné kritériá

  • SLA (Service Level Agreement): záväzná dostupnosť a latencia (napr. „denné reporty do 08:00 s 99,5 % dostupnosťou“).
  • SLO (Service Level Objective): interné ciele kvality (napr. „≥ 97 % úplnosť kľúčových polí“).
  • Akceptačné kritériá: explicitné prahy, nad ktorými je dataset nasaditeľný do produkcie alebo report publikovateľný.

Riadenie incidentov kvality dát

Úroveň Popis Príklady Reakcia MTTA/MTTR cieľ
P1 – Kritický Vplyv na finančné/legálne výstupy Chybné výnosy v uzávierke Incident war-room, rollback, blok publikácie 15 min / 4 h
P2 – Vysoký Vplyv na kľúčové KPI Nekonzistentné predaje v DWH vs. ERP Hotfix, korektívne skripty 1 h / 1 deň
P3 – Stredný Lokálne anomálie Chýbajúce hodnoty v menšej subdoméne Backlog, plán nápravy 4 h / 3 dni
P4 – Nízky Kozmetické problémy Neaktuálne labely Regulárny release 1 deň / 2 týždne

Lineage, katalogizácia a dohľadateľnosť

  • Dátový lineage: vizualizácia tokov od zdrojov po KPI; identifikácia bodov zlyhania.
  • Dátový katalóg: popisy tabuliek/stĺpcov, vlastníci, citlivosť, kvalitatívne skóre.
  • Proveniencia: audit transformácií, verzovanie dbt/SQL modelov, mapovanie závislostí.

Master data a referenčné dáta

Kvalita master a referenčných dát je multiplicátorom kvality naprieč doménami. Plán obsahuje:

  • Politiky zlatého záznamu (golden record): deduplikácia, párovanie, prevažovanie zdrojov.
  • Správa kódovníkov: schvaľovanie zmien, verzovanie a distribúcia do systémov.
  • Kontroly integrity: FK na kódovníky, časová platnosť (SCD), mapovanie na externé štandardy.

Integrácia kvality do SDLC a CI/CD

  • Shift-left testy: spúšťanie validácií pri každom build-e; blok release pri porušení kontraktu.
  • Testy na úrovni modelu: schéma, unikátnosť, not-null, referencie, vlastné biznis pravidlá.
  • Testovacie dáta: syntetické sety s hraničnými prípadmi, ochrana súkromia (maskovanie).
  • Canary a rollback: postupné nasadenie transformácií s porovnaním metrík pred/po.

Výnimky, tolerancie a sezónnosť

Niektoré odchýlky sú očakávané (sezónne špičky, legislatívne zmeny). Plán určuje:

  • Mechanizmus výnimiek: časovo obmedzené, schválené ownerom, s kompenzačným opatrením.
  • Dynamické prahy: percentilové prahy podľa histórie; guardrails pre extrémy.
  • Kontextualizácia alertov: spájanie viacerých signálov (objem + úplnosť + včasnosť).

Meranie prínosu a KPI kvality

  • DQI (Data Quality Index): agregované skóre naprieč metrikami s váhami podľa rizika.
  • MTTA/MTTR: rýchlosť reakcie a nápravy incidentov kvality.
  • Defect Leakage: percento chýb preniknutých do produkčných reportov.
  • Business Impact: počet odvrátených chýb s finančným dopadom, zníženie manuálnych zásahov.

Štandardná dokumentácia a artefakty

  • Register metrík kvality (tabuľka s definíciami, prahmi, vlastníkmi, periodicitou).
  • Mapa lineage a závislostí (vizuál + export do JSON/CSV pre audit).
  • Katalóg dát so schémami, citlivosťou a prístupmi.
  • Runbook incidentov (playbook pre P1–P4, kontakty, eskalácie, komunikačné šablóny).
  • Šablóny dátových kontraktov (API/event/Batch) vrátane verzovania.

Príklad validačného plánu pre dataset „Sales Orders”

Pravidlo Typ Popis Prahy Frekvencia Akcia pri porušení
order_id je unikátny Schéma/PK Žiadne duplikáty kľúča 100 % / 100 % pri každom loade blok pipeline, ticket P1
customer_id existuje v Customers FK integrita Platné vzťahy objednávka→zákazník 99,99 % / 99,9 % denne karanténa záznamov, P2
sum(order_amount) = sum(line_items.amount) Biznis rovnosť Kontrola bilancie hlavička/riadky 100 % / 99,95 % denne alarm, manuálny reconcile, P2
Včasnosť dát D-1 do 06:00 Timeliness Dataset publikovaný v SLA 99,5 % / 99 % denne alert on-call, P2

Ochrana údajov a kvalita

  • Maskovanie a pseudonymizácia: testovacie a analytické prostredia s minimom PII.
  • Validácie citlivosti: kontrola únikov PII do neautorizovaných tabuliek/reportov.
  • Prístupové politiky: least privilege, audit prístupov, segregácia rolí.

Implementačná roadmapa

  1. Týždne 1–2: inventarizácia kritických datasetov, menovanie ownerov/stewardov, glosár.
  2. Týždne 3–4: definícia top metrík a prahov, návrh kontraktov, pilotné validácie.
  3. Týždne 5–6: nasadenie monitoringu a alertingu, runbook incidentov, dashboardy.
  4. Týždne 7–8: rozšírenie na ďalšie domény, kalibrácia, integrácia do CI/CD.
  5. Q+1: audit plánu, revízia metrík, optimalizácia prahov a nákladov.

Riadenie nákladov na kvalitu

  • Prevencia vs. detekcia vs. korekcia: maximalizovať prevenciu (lacnejšia), meraním cost-of-quality.
  • Výber kritických metrík: zamerať sa na 10–15 s najvyšším biznis dopadom.
  • Automatizácia: generické pravidlá a šablóny namiesto ad-hoc skriptov.

Kvalita dát ako schopnosť organizácie

Plán kvality dát vytvára opakovateľný systém, v ktorom majú dáta jasných vlastníkov, metriky sú presne definované a validácie sú automatizované a auditeľné. Výsledkom je dôvera v analytiku, rýchlejšie rozhodovanie a nižšie riziko regulačných či finančných incidentov. Takto chápaná kvalita dát je nie jednorazový projekt, ale trvalá schopnosť organizácie.

Poradňa

Potrebujete radu? Chcete pridať komentár, doplniť alebo upraviť túto stránku? Vyplňte textové pole nižšie. Ďakujeme ♥