Staš Zgonik

 |  Mladina 31  |  Družba

Varstvo osebnih podatkov...

... ali smešna cenzura zgodovine?

Inštitut za slovenski jezik Frana Ramovša kot enega od pomembnih raziskovalnih orodij uporablja svoj besedilni korpus Nova beseda. Zbirka besedil, katerih velik del izvira iz arhiva časnika Delo, obsega 118 milijonov besed. Besedilni korpusi se uporabljajo kot jezikovno orodje za pisanje slovarjev, slovnic in drugih priročnikov. Omogočajo preverjanje običajne rabe besed in besednih zvez s pripadajočim kontekstom. A uporaba tega orodja je zaradi odločbe informacijskega pooblaščenca ogrožena.

 

Zakup člankov

Celoten članek je na voljo le naročnikom. Če želite zakupiti članek, je cena 4,5 EUR. S tem nakupom si zagotovite tudi enotedenski dostop do vseh ostalih zaklenjenih vsebin. Kako do tedenskega zakupa?

Članke lahko zakupite tudi s plačilnimi karticami ali prek storitve PayPal ali Google Pay

Tedenski zakup ogleda člankov
Za ta nakup se je potrebno .

4,5 €

Za daljše časovne zakupe se splača postati naročnik Mladine.

Mesečna naročnina, ki jo je mogoče kadarkoli prekiniti, znaša že od 16,20 EUR dalje:

Staš Zgonik

 |  Mladina 31  |  Družba

Inštitut za slovenski jezik Frana Ramovša kot enega od pomembnih raziskovalnih orodij uporablja svoj besedilni korpus Nova beseda. Zbirka besedil, katerih velik del izvira iz arhiva časnika Delo, obsega 118 milijonov besed. Besedilni korpusi se uporabljajo kot jezikovno orodje za pisanje slovarjev, slovnic in drugih priročnikov. Omogočajo preverjanje običajne rabe besed in besednih zvez s pripadajočim kontekstom. A uporaba tega orodja je zaradi odločbe informacijskega pooblaščenca ogrožena.

V besedilih v zbirki so tudi osebna imena resničnih oseb. In ker so v zbirki številni stari članki iz Dela, se osebe v njej najdejo v različnih kontekstih. Tako se je na informacijskega pooblaščenca obrnil nekdo, ki je bil pred dobrimi desetimi leti obtožen kaznivega dejanja. Danes ga moti, da se je na Googlu našel v tem kontekstu. „Projekt Nova beseda, ki ga je slovenska država več kot desetletje mukoma financirala, bo padel zaradi enega kurjega tatu in njegovih pravic,“ o tem pravi predstojnik inštituta dr. Marko Snoj.

Ker je inštitut po ugotovitvah informacijskega pooblaščenca „kršil zakon s tem, ko je na svoji spletni strani brez privolitve objavil osebne podatke posameznikov, ki so primarno objavljeni v časopisu Delo,“ so mu naložili, da mora v 30 dneh iskanje po besedilnem korpusu prilagoditi tako, da bo onemogočeno iskanje po imenu ali priimku, hkrati pa bo to onemogočeno tudi spletnim iskalnikom.

Tu nastane težava. V slovenskem jeziku je veliko besed, ki so lahko ne le osebno ime ali priimek, ampak imajo še druge pomene, na primer Kos, Zver ali Meh. In če hočejo na inštitutu spoštovati odločbo pooblaščenca, morajo okrniti funkcijo iskalnika po besedilih. „V izgradnjo besedilnega korpusa je bilo vloženih 30 ali 40 delovnih let,“ pravi Snoj. „Zdaj pa je stvar tako rekoč neuporabna.“ Kot pravi, gre za neke vrste cenzuro. Ali brisanje zgodovine. Članki, ki so bili v preteklosti objavljeni v Delu in ki so v Delovem arhivu še vedno dostopni, so pri njih nezakoniti. „Stvar je primerljiva s tem, da bi morali v Sloveniji prepovedati tudi Google, ki o vsaki osebi pove veliko več kot naš iskalnik.“

Namestnica informacijskega pooblaščenca Rosana Lemut Strle primer vidi drugače. „Ne gre za iskalnik tipa Google, ki bi iskal po tem, kar je že bilo objavljeno. Gre za novo zbirko izrezkov besedil, niti ne člankov. Ustvarili so svojo bazo podatkov. Namen te baze pa absolutno ni obveščati javnost o tem, kaj se je nekoč zgodilo, temveč je namen raziskovanje besedišča slovenskega jezika. Zato ni nobene potrebe, da bi zbirka omogočala, da v iskalnik vnesete svoje ime in čisto naključno izveste, kaj ste rekli, napisali, kdo vas je citiral.“ V uradu so prepričani, da so na inštitutu razumeli njihovo odločbo in da imajo samo težave z implementacijo. „Z našim namenom se po mojem strinjajo, jim pa implementacija povzroča tehnične težave."

Pisma bralcev pošljite na naslov pisma@mladina.si. Minimalni pogoj za objavo je podpis z imenom in priimkom ter naslov. Slednji ne bo javno objavljen.