Mokymo tema | Mokymo aprašymas | Nuoroda į video įrašą |
1. Duomenų atvėrimo žingsniai ir būdai | Duomenų atvėrimo proceso trumpa apžvalga, nuo koordinatoriaus registracijos Atvirų duomenų portale iki pačių duomenų atvėrimo. Pagrindiniai žingsniai: Duomenų atvėrimo proceso trumpa apžvalga, nuo koordinatoriaus registracijos Atvirų duomenų portale iki pačių duomenų atvėrimo. Pagrindiniai žingsniai: Pagrindiniai žingsniai 1. Institucijos kaip atvirų duomenų teikėjos ir jos paskirto koordinatoriaus registracija atvirų duomenų portale 2. Atvertinų duomenų rinkinių sąrašo sudarymas (kitaip – duomenų rinkinių inventorizacija). 3. Duomenų struktūros aprašo parengimas. Duomenų struktūros apraše pateikiama informacija apie šaltinio (-ių) duomenų struktūrą. 4. Duomenų atvėrimas Nuorodos: Plačiau: https://atviriduomenys.readthedocs.io/atverimas.html
|
https://youtu.be/iXUTiqzAHrs |
2. Duomenų atvėrimo atsakomybės |
Institucijos koordinatoriaus ir paskirto duomenų tvarkytojo atsakomybės. Koordinatoriaus registracija: https://data.gov.lt/learningmaterial/10 |
https://youtu.be/lKIzWWvm_a8 |
3. Duomenų atvėrimo nuostatai | Nuorodos: Teisės gauti informaciją iš valstybės ir savivaldybių institucijų ir įstaigų įstatymas https://e-seimas.lrs.lt/portal/legalAct/lt/TAD/TAIS.94745/asr 15 straipsnis. Institucijos ir valstybės valdomo subjekto pareiga sudaryti duomenų rinkinius Nutarimą dėl Lietuvos Respublikos teisės gauti informaciją ir duomenų pakartotinio naudojimo įstatymo įgyvendinimo rasite čia. Daugiau apie TGIĮ: https://atviriduomenys.readthedocs.io/savokos.html#term-TGII |
https://youtu.be/HaxbHHWnaEs |
4. Poreikiu grįstas duomenų atvėrimas | Demonstracija kaip atsakyti į duomenų atvėrimo poreikį pateiktą Atvirų duomenų portale. Nuorodos: Nutarimas dėl asmenų prašymų ir skundų nagrinėjimo viešojo administravimo subjektuose taisyklių patvirtinimo https://e-seimas.lrs.lt/portal/legalAct/lt/TAD/TAIS.303479/asr Prašymai gauti duomenis: https://atviriduomenys.readthedocs.io/atverimas/prasymas.html |
https://youtu.be/MlER0VHkv_U |
5. Ekosistema |
Apžvelgiama, kokie servisai, paslaugos, serveriai ir svetainės egzistuoja ir kaip jie naudojami. Aptariami skirtingi duomenų atvėrimo įrankiai: Spinta įrankis ir jo diegimas Linux sistemoje: https://atviriduomenys.readthedocs.io/spinta.html#diegimas |
https://youtu.be/RshRMpn-CCw |
6. Inventorizacija | Duomenų inventorizacija gali būti atliekama keliais būdais: 1. Inventorizacija administracinėje ADP aplinkoje užpildant formą/laukus 2. Inventorizacija importuojant rinkinių sąrašą iš Excel šablono. Šabloną galima atsisiųsti paspaudus ant nuorodos https://data.gov.lt/learningmaterial/14 3. Inventorizacija per partnerių API https://data.gov.lt/public/api/1. Veiksmas per API reikalingas API key. Jį galima rasti pagrindiniame puslapyje, prisijungus prie ADP administracinės aplinkos. Nuorodos: Plačiau: https://atviriduomenys.readthedocs.io/atverimas/inventorizacija.html Pagrindines komandas naudojamas komandinėje eilutėje galima rasti čia https://gist.github.com/sirex/30f595e58beb0b52cad565a061753f62 ir čia https://atviriduomenys.readthedocs.io/spinta.html#diegimas |
https://youtu.be/arch_mKAU8Q |
7. Prioriteto balas | Prioriteto balas naudojamas įsivertinti kuriuos duomenų rinkinius atverti pirmus. Nuorodos: Plačiau: https://atviriduomenys.readthedocs.io/katalogas.html#prioritetai |
https://youtu.be/ZmQKyhEuEgM |
8. Duomenų struktūros aprašas - teorinė dalis | Duomenų struktūros aprašas yra paremtas DCAT standartu, tačiau DCAT standarte nėra detalių apie duomenų sudėtį ir duomenų rinkiniai įvardinami abstrakčiai (rinkinio pavadinimas, aprašymas, organizacija, tvarkytojas bei kai kurie kiti metaduomenys). DCAT standartas nenurodo modelio ir savybės, tą įgyvendina duomenų struktūros aprašas. Yra dviejų tipų duomenų struktūros aprašai: 1. ŠDSA (šaltinio duomenų struktūros aprašas) – parengiama pirminė duomenų išklotinė institucijos viduje, identifikuojami laukai, kurie nebus publikuojami. Tai yra vidinis dokumentas ir nėra skirtas publikavimui. 2. ADSA (atvirų duomenų struktūros aprašas) – parengiamas struktūros aprašas atmetus visus laukus iš ŠDSA, kurie nebus publikuojami. Tai yra atviras dokumentas ir yra skirtas jau publikavimui. Nuorodos: Daugiau apie duomenų struktūros aprašą: https://atviriduomenys.readthedocs.io/atverimas/struktura.html Nuoroda į DCAT žodyną: https://www.w3.org/TR/vocab-dcat-2/#introduction Duomenų struktūros aprašo šablonas: https://data.gov.lt/learningmaterial/15 |
https://youtu.be/pK4Dx_SjieU |
9. Duomenų struktūros aprašo generavimas komandinės eilutės pagalba įsidiegus Spinta įrankį | Duomenų struktūros aprašo automatinis generavimas iš duomenų šaltinio. Pastaba: labai žemo brandos lygio duomenims, duomenų struktūros aprašas generuojamas ne automatiškai, o rankiniu būdu, tačiau aukšto brandos lygio duomenys leidžia sugeneruoti duomenų struktūros aprašą automatiškai, naudojantis komandine eilute. Nuorodos: Kaip sugeneruoti ŠDSA galite rasti čia https://atviriduomenys.readthedocs.io/spinta.html#sdsa-generavimas Spinta įrankio diegimas: https://atviriduomenys.readthedocs.io/spinta.html#diegimas Spinta įrankiui reikalinga Python naujausia versija: https://www.python.org/downloads/ |
https://youtu.be/xsdB6opR0YY |
10. Duomenų atvaizdavimas saugykloje generuojant komandinę eilutę | Nuorodos: Duomenų atvaizdavimas saugykloje komandų pagalba. Pagrindines komandas rasite šiuo adresu https://gist.github.com/sirex/30f595e58beb0b52cad565a061753f62. Duomenų saugyklos adresas: get.data.gov.lt. Taip pat, paaiškinama kaip paversti ŠDSA (pirminio šaltinio duomenų struktūros aprašas) į ADSA (atvirų duomenų struktūros aprašas) https://atviriduomenys.readthedocs.io/spinta.html#sdsa-vertimas-i-adsa |
https://youtu.be/ZVDebedXi1Y |
11. Duomenų struktūros aprašo įkėlimas į Katalogą | Nuorodos: Plačiau apie tai kaip įkelti duomenų struktūros aprašą rasite čia: https://atviriduomenys.readthedocs.io/katalogas.html#struktura Duomenų struktūros aprašo šablonas: https://data.gov.lt/learningmaterial/15 |
https://youtu.be/UyXIFwwV5bs |
12. Duomenų atvėrimo būdai | Yra keli duomenų atvėrimo būdai: 1. VDV IS (Valstybės duomenų valdysenos informacinė sistema - Palantir) – Statistikos departamento duomėnų atvėrimo įrankis 2. Spinta – IVPK sukurtas duomenų atvėrimo įrankis. Netinkamas realaus laiko duomenims. 3. Institucija pati pasidaro savo įrankius per API integracijai su saugykla, kurioje publikuoja savo duomenis. Tinka realaus laiko duomenims. 4. Institucija publikuoja duomenis savo infrastruktūroje. Esant poreikiui saugykla gali susiimportuoti duomenis. Tinka realaus laiko duomenims. 5. Duomenys keliami į atvirų duomenų katalogą (ADK) data.gov.lt naudojantis administracine aplinka. Šis būdas mažiausiai rekomenduojamas dėl ribojamo failo dydžio, todėl netinka didelės apimties duomenims. Nuorodos: Plačiau apie duomenų atvėrimą: https://atviriduomenys.readthedocs.io/atverimas/atverimas.html https://atviriduomenys.readthedocs.io/atverimas/struktura.html#sdsa-gavimas |
https://youtu.be/5HkzVSZ-PdA |
13. Duomenų struktūros aprašas - semantika ir žodynas |
Žodynas padeda standartizuotai aprašyti duomenis naudojant kodinius pavadinimus. Tai leidžia duomenų naudotojams paprasčiau manipuliuoti duomenimis, juos apjungti ir pan. Šiuo atveju, duomenų struktūros aprašas ir yra žodynas, kuris verčia nestandartiškai pateiktus duomenis (lietuviškos raidės, visos didžiosios raidės ir pan.) į standartizuotus. Duomenų žodynų katalogas: https://lov.linkeddata.es/dataset/lov |
https://youtu.be/flYtf0ASTV8 |
14. Duomenų struktūros aprašas – lentelės struktūra | Bendrai paaiškinama kaip sudaromas duomenų struktūros aprašas iš šaltinio lentelės. Nuorodos: Plačiau apie duomenų struktūros aprašą: https://atviriduomenys.readthedocs.io/dsa/formatas.html#lenteles-struktura Dimensijos duomenų struktūros apraše: https://atviriduomenys.readthedocs.io/dsa/formatas.html#dimensijos Duomenų struktūros aprašo metaduomenys: https://atviriduomenys.readthedocs.io/dsa/formatas.html#metaduomenys |
https://youtu.be/q3XZ-M08YdM |
15. Duomenų struktūros aprašas – kodiniai pavadinimai | Kodiniai pavadinimai naudojami šaltinio duomenų pavadinimus paversti standartizuotais, kad naudotis jais būtų patogiau ir suprantamiau. Nuorodos: Plačiau apie kodinius pavadinimus: https://atviriduomenys.readthedocs.io/dsa/formatas.html#kodiniai-pavadinimai |
https://youtu.be/tSBprazMEBY |
16. Saugyklos statusas ir planas | Pateikiami saugyklos vystymo etapai. Iki 2023-03 planuojama saugyklą išvystyti iki stabilios versijos. Nuorodos: Plačiau: https://atviriduomenys.readthedocs.io/api/index.html#statusas-ir-planas |
https://youtu.be/idne1a_XyVE |
17. Duomenų struktūros aprašas - sąsaja su išoriniu žodynas | Sąsaja su išoriniu žodynu kelia duomenų brandos lygį ir taip padidina duomenų kokybę bei naudojamumą. Šiame vaizdo įraše pateikiamas žodynas FOAF kaip pavyzdys, kuris yra vienas labiausiai naudojamų žodynų. FOAF žodynas: http://xmlns.com/foaf/spec/ Prieš naudojant žodynus, visų pirma galima apsirašyti „prefixus (prefix)“. Prefixai naudojami kai kažkoks elementas duomenų struktūros apraše kartojasi. Pavyzdžiui, kad nereikėtų kartoti internetinės svetainės adreso URI stulpelyje, galima jį apsirašyti vieną kartą atskiroje dimensijoje kaip prefiksą ir prefiksą naudoti URI stulpelyje https://atviriduomenys.readthedocs.io/dsa/dimensijos.html#isoriniu-zodynu-prefiksai. |
https://youtu.be/5G3Ndrf5gZw |
18. Duomenų struktūros aprašas - duomenų šaltinis | Duomenų struktūros apraše duomenų šaltinis yra žymimas „Resource“. Tai yra nuoroda į vietą kur duomenys yra saugomi (duomenų bazė, lentelė ar kt.) Nuorodos: Daugiau apie duomenų šaltinį: https://atviriduomenys.readthedocs.io/dsa/dimensijos.html#duomenu-saltinis |
https://youtu.be/zWUx_FV7qm0 |
19. Duomenų struktūros aprašas - vardų erdvės | Duomenų struktūros apraše turi būti įvardinami duomenų rinkiniai. Kiekvienas duomenų rinkinys turi turėti unikalų pavadinimą ir tą unikalumą užtikrina vardų erdvės. Nuorodos: Plačiau apie vardų erdves: https://atviriduomenys.readthedocs.io/dsa/formatas.html#vardu-erdves |
https://youtu.be/y59-aKac8H8 |
20. Duomenų struktūros aprašas – duomenų prieigos lygiai (access) | Nuorodos: Plačiau apie duomenų prieigos lygius: https://atviriduomenys.readthedocs.io/dsa/access.html#access |
https://youtu.be/laJ8lNLPDTg |
21. Duomenų struktūros aprašas – formulės filtras (prepare) | Stulpelis „prepare“ duomenų struktūros apraše naudojamas aprašyti formules. Pvz. vienas iš panaudojimo atveju gali būti filtras jeigu norima atverti ne visas, o tik tas lentelės eilutes, kurios atitinka model.prepare įrašytą sąlygą. Nuorodos: Kam skirtas prepare stulpelis: https://atviriduomenys.readthedocs.io/dsa/formatas.html#prepare Plačiau apie formules: https://atviriduomenys.readthedocs.io/dsa/formules.html# |
https://youtu.be/oGjjixOsKSc |
22. Duomenų struktūros aprašas – asmens duomenys ir duomenų nuasmeninimas | Asmens duomenims apsaugoti reikalingas nuasmeninimas, kuriuo siekiama panaikinti tapatybės atsekimo galimybę. Plačiau apie asmens duomenis: https://atviriduomenys.readthedocs.io/asmens-duomenys.html Asmenį identifikuojančius duomenis fiksuoti duomenų struktūros apraše naudojamas The Person Core žodynas ir Pii žodynas, kuriuos galima rasti šiuo adresu: https://atviriduomenys.readthedocs.io/asmens-duomenys.html#asmeni-identifikuojantys-duomenys. Šio žodyno elementai naudojami URI stulpelyje duomenų struktūros apraše. SVARBU: šių žodynų naudojimas nėra duomenų nuasmeninimas, bet darant nuasmeninimą, jie nurodo kurioje vietoje yra asmens duomenys. |
https://youtu.be/IaIvb2WrDGg |
23. Duomenų struktūros aprašas – išorinių žodynų prefix |
Prefixai duomenų struktūros apraše naudojami susiejimui su išoriniu žodynu. Susiejimas su išoriniu žodynu kelia duomenų brandos lygį.
Nuoroda į žodynų katalogą: https://lov.linkeddata.es/dataset/lov |
https://youtu.be/jlxDeRIueiM |
24. Duomenų struktūros aprašas – duomenų brandos lygis (level) | Duomenų brandos lygiai: 1. 0 – duomenų nėra 2. 1 – duomenys be aiškios struktūros, pvz. data duomenų šaltinio lentelėje užrašyta nestandartiškai ir skirtingai atskiruose laukuose. 3. 2 – nestandartinio formato duomenys, pvz. data duomenų šaltinio lentelėje užrašyta nestandartiškai, bet visuose laukuose vienodai. Kitas pavyzdys, kai duomenys atveriami standartiniu formatu (CSV, XML, JSON ir kt.). 4. 3 – duomenys be identifikatorių, pvz. data duomenų šaltinio lentelėje užrašyta pagal ISO standartą. 5. 4 – duomenys naudoja nestandartinį žodyną, pvz. datos laukas yra susietas su kitu objektu ir yra unikalus identifikatorius, t.y. jeigu užpildytas ref stulpelis, tai reiškia, kad yra siejama su kitu objektu ir brandos lygis kyla iki 4. 6. 5 – aukščiausio brandos lygio duomenys, pvz. datos laukas susietas su išoriniu žodynu, kuriame paaiškinama kaip ir kur tas laukas yra naudojamas. Nuorodos: Plačiau apie brandos lygius: https://atviriduomenys.readthedocs.io/dsa/level.html Apie brandos lygio kėlimą: https://atviriduomenys.readthedocs.io/brandos-lygio-kelimas/index.html |
https://youtu.be/JaNwws0Ugos |
25. Duomenų struktūros aprašas – enum tipo (kategoriniai) duomenys | Enum tipas naudojamas kategoriniams duomenims aprašyti duomenų struktūros apraše. Kai šaltinio laukelis gali būti daugiau nei viena reikšmė, naudojant enum tipą „source“ stulpelyje nurodome galimas reikšmes ir „prepare“ stulpelyje nurodome reikšmes, kurias norime matyti atvėrus duomenis. Nuorodos: Plačiau apie Enum tipą: https://atviriduomenys.readthedocs.io/dsa/dimensijos.html#id0 |
https://youtu.be/S7hXKqPDGRM |
26. Duomenų struktūros aprašas – duomenų identifikatoriai | Kiekvienas publikuojamų duomenų objektas turi unikalų identifikatorių, kuris naudojamas apjungiant skirtingų tipų objektus tarpusavyje. Nuorodos: Daugiau informacijos: https://atviriduomenys.readthedocs.io/savokos.html#term-brandos-lygis |
https://youtu.be/3fMvmnKo1tU |
27. Ryšiai tarp lentelių ir duomenų normalizavimas |
Šioje dalyje paaiškinama kaip apjungti dvi lenteles. Plačiau apie normalizavimą: https://atviriduomenys.readthedocs.io/savokos.html#term-normalizavimas
Ir https://atviriduomenys.readthedocs.io/brandos-lygio-kelimas/5.html#normalizavimas |
https://youtu.be/sf88VQqA5u4 |
Autorius: Aurimas Jasiūnas;
Publikavimo data: 2022-01-26