(information in Czech language)

Tvorba specializovaných dat a technik pro poloautomatické rozšiřování tezauru

Porovnatelné specializované korpusy z oblasti zeměměřictví a katastru nemovitostí

Textová data pro korpus byla shromážděna dvěma metodami z veřejně dostupných internetových zdrojů. Všechny dále odkazované nástroje byly vyvinuty v Centru ZPJ, FI MU, Brno. Shromážděné dokumenty byly vyčištěny od netextového a nekvalitního obsahu nástrojem Justext [1] a zbaveny duplicit (podobných odstavců) nástrojem Onion [1].

Nejprve jsme získali obsah oborových webů pojednávajících o zeměměřictví a katastru nemovitostí:

Zdroj Internetová doména Dokumentů stáhnuto Pozic stáhnuto Dokumentů po deduplikaci Pozic po deduplikaci
webové stránky resortu ČÚZK www.cuzk.cz 16405 3137795 15289 340943
webové stránky VÚGTK www.vugtk.cz 4659 6419950 3212 4386238
webové stránky ČSGK csgk.fce.vutbr.cz 241 77255 198 58561
webové stránky KGK www.kgk.cz 417 44814 414 29890
webové stránky SFDP www.sfdp.cz 192 35287 106 11279
webové stránky kartografické společnosti www.czechmaps.cz 94 108506 90 98914
webové stránky a časopis Zeměměřič www.zememeric.cz 8634 6100751 6200 2638308

Dále jsme shromáždili dokumenty z 1063 webových domén nástrojem WebBootCaT [2]. Klíčová slova, hlavní vstup pro tuto metodu, pochází ze seznamu hesel z multilingvistického slovníku VÚGTK, v.v.i. Výsledné dokumenty obsahují, kromě klíčových slov, podle kterých byly vyhledány, i kandidáty na další termíny v původním seznamu neobsažené.

Tematická poddoména Dokumentů stáhnuto Pozic stáhnuto Dokumentů po deduplikaci Pozic po deduplikaci
globální navigační družicový systém 118 250833 117 221315
metrologie 144 867156 144 619482
fotogrammetrie a DPZ 42 244212 42 227731
geografická informace 55 805059 55 550681
mapování 213 858575 212 722080
kartografie 368 1358973 365 1124708
katastr nemovitostí 260 970951 259 776497
geodézie 190 575381 189 483679
teorie chyb 75 258345 75 218809
přístrojová technika 115 187106 113 173984
inženýrská geodézie 114 286846 113 242857

Korpus byl sestaven a indexován pro rychlé vyhledávání v korpusovém manažeru Manatee/Bonito [3]. Celková velikost korpusu je nyní 12 925 956 pozic (9 885 027 slov, z toho 3 943 189 podstatných jmen) v 27 193 dokumentech.

Dále byly sestaveny nové jednojazyčné porovnatelné specializované korpusy z oblasti zeměměřictví a katastru nemovitostí v ostatních jazycích tezauru. Data byla získána metodou WebBootCaT z internetových zdrojů, výchozí klíčová slova pochází z překladů slovníku VÚGTK, v.v.i. Korpusy byl sestaveny a indexovány pro rychlé vyhledávání v korpusovém manažeru Manatee/Bonito.

Jazyk Dokumentů Pozic Zastoupeno webových domén
angličtina 8 149 40 225 064 4 946
francouzština 5 326 15 789 761 3 291
němčina 3 373 9 744 313 2 220
ruština 2 914 19 015 734 1 770
slovenština 2 962 13 491 086 1 532

Data v korpusech jsou rozdělena dle použitých klíčových slov do subdomén:

Jazyk angličtina francouzština němčina ruština slovenština
Subdoména dokumentů pozic/slov dokumentů pozic/slov dokumentů pozic/slov dokumentů pozic/slov dokumentů pozic/slov
katastr nemovitostí 796 4 158 594 330 1 073 836 469 981 677 182 654 650 449 1 438 573
kartografie 1 445 8 082 005 877 2 510 459 878 2 168 200 334 1 727 503 475 2 809 679
inženýrská geodézie 292 4 460 104 418 1 020 350 407 925 283 186 1 481 491 210 666 762
teorie chyb 432 1 047 076 234 463 312 122 880 327 219 2 001 121 45 268 641
geodézie 1 653 7 743 731 1 352 3 820 159 55 362 269 534 5 151 819 622 2 067 939
geografická informace 1 071 2 429 631 305 2 002 968 264 770 614 496 2 702 370 177 785 378
globální navigační družicový systém 636 1 655 781 265 825 083 28 54 960 83 193 516 98 338 274
přístrojová technika 588 2 042 578 227 350 541 73 887 687 142 1 153 706 164 255 901
mapování 557 3 979 440 524 1 820 529 722 1 424 175 214 939 055 358 2 491 491
metrologie 506 3 339 562 222 860 733 218 688 930 370 1 715 243 75 372 589
fotogrammetrie a DPZ 245 973 652 573 1 029 258 137 584 608 182 1 268 450 289 1 903 776

Aplikace pro návrhy kandidátských termínů z korpusů se zaměřením na české termíny

Alfa verze aplikace využívá JSON API systému Sketch Engine [4] běžícího na serveru Fakulty informatiky MU k dotazování korpusu zeměměřictví. Ke každému termínu ze seznamu hesel tezauru TeZK aplikace nabízí funkce založené na korpusu:

  • tzv. konkordanci (tj. ukázky použití termínu ve větách)
  • a automatická synonyma (slova sdílející kolokace s termínem, pouze jednoslovné termíny).

Seznam kandidátů na (nové) termíny je extrahován z korpusu zeměměřictví a katastru nemovitostí metodami srovnávání korpusů a extrakcí klíčových slov. [5, 6] Četnost slov a jmenných frází ve specializovaném doménovém korpuse srovnáváme s četností týchž slov a jmenných frází ve velkém obecném (nespecializovaném) korpuse czTenTen12 [7]. Nejlepší kandidáti na termíny mají nejvyšší podíl četností. Navrhované termíny nejvíce charakteristické pro cílovou doménu jsou do aplikace začleněny taktéž pomocí API Sketch Engine.

Automaticky extrahované víceslovné termíny (prvních 100 kandidátů):

správa zeměměřictví stavební úřad geografická informace
státní správa zeměměřictví model terénu životní prostředí
státní správa znění zákona topografická mapa
katastr nemovitostí referenční stanice hranice pozemků
katastrální úřad totální stanice permanentní stanice
podrobná informace výsledek měření národní výbor
katastrální mapa digitální model geodetický základ
katastrální území veřejná správa půdní fond
pozemková úprava zeměměřický úřad hranice pozemku
informační systém okresní úřad geografický informační systém
geometrický plán určování polohy pracovní skupina
souřadnicový systém parcelní číslo Czech republic
právní předpis český svaz základní mapa
katastrální operát geodetická práce evidence nemovitostí
bodové pole referenční systém střední chyba
zeměměřická činnost pozemkový katastr občanský zákoník
právnická osoba obnova katastrálního operátu správní obvod
pozdější předpis zemský povrch popisná informace
znění pozdějších předpisů reálný čas polohové bodové pole
právní vztah dálkový průzkum oprávněná osoba
Česká republika list vlastnictví území české republiky
mapový list údaj katastru nejistota měření
vlastnické právo mapové dílo geodetická informace
věcné břemeno zástavní právo stavební zákon
prostorové datum orgán státní správy územní plánování
podrobný bod identický bod měřená veličina
fyzická osoba podrobné měření navigační systém
český úřad věcné právo polohové určení
katastrální zákon digitální mapa svaz geodetů
zvláštní předpis zvláštní právní předpis systematická chyba
pozemkový úřad kartografická společnost správní orgán
pozemková kniha lomový bod bodová pole
katastrální pracoviště mapový podklad
poslední aktualizace vodní tok

Odkazy

[1] Pomikálek, Jan. “Removing boilerplate and duplicate content from web corpora.” Disertační práce, Masarykova univerzita, Fakulta informatiky (2011).

[2] Baroni, Marco, Adam Kilgarriff, Jan Pomikálek, and Pavel Rychlý. “WebBootCaT: instant domain-specific corpora to support human translators.” In Proceedings of EAMT, pp. 247-252. 2006.

[3] Rychlý, Pavel. “Manatee/bonito–a modular corpus manager.” In 1st Workshop on Recent Advances in Slavonic Natural Language Processing, pp. 65-70. within MU: Faculty of Informatics Further information, 2007.

[4] Kilgarriff, Adam, et al. “The Sketch Engine: Ten Years On“. In Lexicography (2014): 1-30. .

[5] Kilgarriff, Adam. “Comparing Corpora“. In International Journal of Corpus Linguistics 6 (1), (2001): 1-37

[6] Kilgarriff, Adam. “Simple maths for keywords“. In Proc. Corpus Linguistics. 2009.

[7] Suchomel, Vít. Recent Czech Web Corpora. In Proc. 6th Workshop on Recent Advances in Slavonic Natural Language Processing. Brno: Tribun EU, 2012, s. 77-83.