JDIM: Anotační nástroj

Anotační nástroj pro slovotvorbu

Anotační nástroj

Demo: Anotace slovotvorby

Představujeme demo verzi plného nástroje sloužícího k ručnímu získání slovotvorných dat, která mohou posloužit pro experimenty se strojovým učením. Anotovat (tak se říká zpravidla procesu značení/úpravy dat) stačí často totiž jen část dat, která se následně použije pro natrénování počítače, aby zbylé případy anotovat počítač za nás. Tím ušetříme svůj čas i energii.

Ovládání

V nástroji si můžete vyzkoušet práci člověka (anotátora), který anotuje data ručně. Narozdíl od něj si ale okamžitě můžete ověřit, zda jsou vámi anotovaná data správně (pomocí tlačítka JDIM kontrola).

Jaký je cíl?

Na obrazovce jsou vzájemně příbuzná slova; jsou od sebe odvozena různými předponami nebo příponami. Cílem je zaznamenat, jak jsou od sebe slova vzájemně odvozena, např. hráčka je odvozena od hráč, a ten je odvozen od hrát. Základní vlastností takto modelované příbuznosti slov je, že každé odvozené slovo má maximálně jedno slovo základní. Když se dají všechna takto spojená příbuzná slova dohromady, vytvoří tzv. strom, který má v kořeni slovo, od kterého jsou odvozena všechna ostatní slova.

Jak na to?

Zkuste mezi slovy načtenými na obrazovce najít správné odvozovací vztahy. Celkem je k vyzkoušení 5 skupin příbuzných slov.

Přidat spojnici lze ve třech kliknutích, konkrétně: na odvozené slovo (např. hráčka), na toto tlačítko a na slovo základové (např. hráč). Na pořadí si dejte pozor. Šipky by vždy měly mířit od základových slov ke slovům odvozeným.
Odebrat spojnici můžete prostým označením příslušné spojnice a kliknutím na toto tlačítko.
Jedná se o strom? je tlačítko, které poskytuje kontrolu, jestli jsem některému z odvozených slov nezaznamenali více základových slov.
Šipky přepínají na další sadu příbuzných slov.

Další odkazy

Nástroj byl vyvinut na Ústavu formální a aplikované lingvistiky na MFF UK. Jeho zjednodušená verze byla vytvořena pro popularizační akci Jeden den s informatikou a matematikou (leden 2023). Autorem je Lukáš Kyjánek. Zdrojové kódy plné i demo verze jsou k dispozici v repozitáři GitHub. Vznik nástroje byl v průběhu jeho vývoje podpořen následujícími granty: GA19-14534S (Grantová agentura ČR), START/HUM/010 (Grantová schémata Univerzity Karlovy; reg. č. CZ.02.2.69/0.0/0.0/19_073/0016935), SVV260575 (Karlova Univerzita), LINDAT/CLARIAH CZ (Ministerstvo školství, tělovýchovy a sportu; č. LM2015071 a LM2018101).

↓