Závěrečná práce: Bc. Jan Bušta, učo 172959: Automatická extrakce slovesných idiomů z korpusu
Diplomová práce
Automatická extrakce slovesných idiomů z korpusu
Automatic retrieval of varbal idioms from corpora
Anotace
Práce se zabývá porovnáním algoritmů pro automatickou extrakci idiomatických frází z korpusu, zkoumá různé přístupy pro řešení problému a do českého jazykového prostředí implementuje algoritmus A. Fazlyho a S. Stevensonové, který se zakládá na lexikální a syntaktické pevnosti vazeb v idiomech, které jsou tvořeny tranzitivním slovesem a jeho přímým předmětem.
Abstract
This thesis describes comparison of algorithms for automatic extraction of idiomatic phrases from corpora, compare different approaches and implementing the algorithm of A. Fazly and S. Stevenson into Czech language environment. This algorithm is based on lexical and syntactical fixedness of binding in idioms, which are composed from transitive verb its direct object.
Zadání práce
Student nastuduje současné algoritmy používané pro automatické vyhledávání slovesných idiomatických frází v textových korpusech, provede jejich porovnání a následně implementuje vhodný z nich. Kromě implementace bude součástí práce i databáze extrahovaných idiomatických spojení z vybraných českých korpusů (např. SYN2000, czes), vyhodnocení správnosti pro část takto získaných dat a jejich porovnání se SČFI.
Práce je součástí projektů spojených s činností Laboratoře zpracování přirozeného jazyka a jako taková bude vyžadovat pravidelné zveřejňování dosažených výsledků ve formě souhrnné zprávy vždy na konci každého kalendářního měsíce po celou dobu řešení. Tyto zprávy budou vystaveny na webových stránkách Laboratoře. Řešiteli bude zřízen účet na hlavním serveru, případně i na pracovních stanicích Laboratoře.
Práce je vypisována v rámci projektu OP VK s názvem Platforma výzkumné a vzdělávací spolupráce FI MU v oblasti zpracování dat, reg. číslo CZ.1.07/2.4.00/12.0049, a aktivit SPP.10. 1. 2012 13:28, RNDr. Miloš Jakubíček, Ph.D., učo 172962
- Zadáno/změněno 7. 2. 2012 13:45, Eva Drštková
- Záznam založen 21. 11. 2011 14:11, Helena Kryštofová
- Zveřejnit od 9. 1. 2012 11:34, Helena Kryštofová
- Práce převzata 9. 1. 2012 11:34, Helena Kryštofová
Vedoucí
Literatura
- ČERMÁK, František. Slovník české frazeologie a idiomatiky. 2. přeprac. a dopl. vyd., 1. Praha: Leda, 2009, 507 s. ISBN 9788073352158.
- FAZLY, A a S STEVENSON. Automatically constructing a lexicon of verb phrase idiomatic combinations. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL-2006). 2006, 344 s.
- BANNARD, Colin. A measure of syntactic flexibility for automatically identifying multiword expressions in corpora. In Proceedings of the Workshop on a Broader Perspective on Multiword Expressions. Association for Computational Linguistics, 2007, 8 s.
Práce na příbuzné téma
Seznam prací, které mají shodná klíčová slova.
-
Prefixalnyje suščestvitělnyje v russkom i češskom jazyke: korpusnoje issledovanije prefixa bez-
Bc. Iva Táborská -
Variantnost užívání tvarů 1. os. sg. a 3. os. pl. sloves typů krýt, kupovat a mazat (na materiále Českého národního korpusu)
Mgr. Štěpánka Mendlová -
Webové rozhraní pro automatický jazykový korektor češtiny
Mgr. Vojtěch Mrkývka, Ph.D., učo 421310 -
Bilingualism and Interference: A Corpus-based Linguistic Analysis of Bilingual Children’s Speech in a Czech-English Environment
Bc. Lucie Olijnyková -
Webový korektor jako prostředek formalizace pravidel českého jazyka
Mgr. Vojtěch Mrkývka, Ph.D., učo 421310 -
Doplněk do prohlížeče pro automatický jazykový korektor
Mgr. Bc. Matouš Ejem, učo 393725 -
Glagoly na -nuť/-nout v russkom i češskom jazykach
Mgr. Julie Jakovcová -
Výpočet četností výskytů hesel SČFI v korpusu
Mgr. Jan Bušta, učo 172959




