Představujeme demo verzi plného nástroje sloužícího k ručnímu získání slovotvorných dat, která mohou posloužit pro experimenty se strojovým učením. Anotovat (tak se říká zpravidla procesu značení/úpravy dat) stačí často totiž jen část dat, která se následně použije pro natrénování počítače, aby zbylé případy anotovat počítač za nás. Tím ušetříme svůj čas i energii.
V nástroji si můžete vyzkoušet práci člověka (anotátora), který anotuje data ručně. Narozdíl od něj si ale okamžitě můžete ověřit, zda jsou vámi anotovaná data správně (pomocí tlačítka JDIM kontrola).
Na obrazovce jsou vzájemně příbuzná slova; jsou od sebe odvozena různými předponami nebo příponami. Cílem je zaznamenat, jak jsou od sebe slova vzájemně odvozena, např. hráčka je odvozena od hráč, a ten je odvozen od hrát. Základní vlastností takto modelované příbuznosti slov je, že každé odvozené slovo má maximálně jedno slovo základní. Když se dají všechna takto spojená příbuzná slova dohromady, vytvoří tzv. strom, který má v kořeni slovo, od kterého jsou odvozena všechna ostatní slova.
Zkuste mezi slovy načtenými na obrazovce najít správné odvozovací vztahy. Celkem je k vyzkoušení 5 skupin příbuzných slov.
Nástroj byl vyvinut na Ústavu formální a aplikované lingvistiky na MFF UK. Jeho zjednodušená verze byla vytvořena pro popularizační akci Jeden den s informatikou a matematikou (leden 2023). Autorem je Lukáš Kyjánek. Zdrojové kódy plné i demo verze jsou k dispozici v repozitáři GitHub. Vznik nástroje byl v průběhu jeho vývoje podpořen následujícími granty: GA19-14534S (Grantová agentura ČR), START/HUM/010 (Grantová schémata Univerzity Karlovy; reg. č. CZ.02.2.69/0.0/0.0/19_073/0016935), SVV260575 (Karlova Univerzita), LINDAT/CLARIAH CZ (Ministerstvo školství, tělovýchovy a sportu; č. LM2015071 a LM2018101).