Automatická extrakce slovesných idiomů z korpusu

Bušta, Jan

Diplomová práce

Automatická extrakce slovesných idiomů z korpusu

Automatic retrieval of varbal idioms from corpora

Bc. Jan Bušta, učo 172959

Anotace

Práce se zabývá porovnáním algoritmů pro automatickou extrakci idiomatických frází z korpusu, zkoumá různé přístupy pro řešení problému a do českého jazykového prostředí implementuje algoritmus A. Fazlyho a S. Stevensonové, který se zakládá na lexikální a syntaktické pevnosti vazeb v idiomech, které jsou tvořeny tranzitivním slovesem a jeho přímým předmětem.

Abstract

This thesis describes comparison of algorithms for automatic extraction of idiomatic phrases from corpora, compare different approaches and implementing the algorithm of A. Fazly and S. Stevenson into Czech language environment. This algorithm is based on lexical and syntactical fixedness of binding in idioms, which are composed from transitive verb its direct object.

Klíčová slova

idiom automatická extrakce korpus český jazyk type-based zpracování přirozeného jazyka automatic extraction corpus Czech language natural language processing

Zadání práce

Student nastuduje současné algoritmy používané pro automatické vyhledávání slovesných idiomatických frází v textových korpusech, provede jejich porovnání a následně implementuje vhodný z nich. Kromě implementace bude součástí práce i databáze extrahovaných idiomatických spojení z vybraných českých korpusů (např. SYN2000, czes), vyhodnocení správnosti pro část takto získaných dat a jejich porovnání se SČFI.

Práce je součástí projektů spojených s činností Laboratoře zpracování přirozeného jazyka a jako taková bude vyžadovat pravidelné zveřejňování dosažených výsledků ve formě souhrnné zprávy vždy na konci každého kalendářního měsíce po celou dobu řešení. Tyto zprávy budou vystaveny na webových stránkách Laboratoře. Řešiteli bude zřízen účet na hlavním serveru, případně i na pracovních stanicích Laboratoře.

Práce je vypisována v rámci projektu OP VK s názvem Platforma výzkumné a vzdělávací spolupráce FI MU v oblasti zpracování dat, reg. číslo CZ.1.07/2.4.00/12.0049, a aktivit SPP.

Administrativní informace

Práce zkontrolována:
10. 1. 2012 13:28, RNDr. Miloš Jakubíček, Ph.D., učo 172962

Zadáno/změněno 7. 2. 2012 13:45, Eva Drštková
Záznam založen 21. 11. 2011 14:11, Helena Kryštofová
Zveřejnit od 9. 1. 2012 11:34, Helena Kryštofová
Práce převzata 9. 1. 2012 11:34, Helena Kryštofová

Plný text práce

682,1 KB / soubor PDF

Přílohy

Jazyk práce

čeština

Termín obhajoby

7. 2. 2012

Práce byla úspěšně obhájena

Vedoucí

RNDr. Miloš Jakubíček, Ph.D., učo 172962
CZPJ KSUZD FI MU

Oponent

doc. Mgr. Pavel Rychlý, Ph.D., učo 3692
KSUZD FI MU

Posudek oponenta

Literatura

ČERMÁK, František. Slovník české frazeologie a idiomatiky. 2. přeprac. a dopl. vyd., 1. Praha: Leda, 2009, 507 s. ISBN 9788073352158.
FAZLY, A a S STEVENSON. Automatically constructing a lexicon of verb phrase idiomatic combinations. In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL-2006). 2006, 344 s.
BANNARD, Colin. A measure of syntactic flexibility for automatically identifying multiword expressions in corpora. In Proceedings of the Workshop on a Broader Perspective on Multiword Expressions. Association for Computational Linguistics, 2007, 8 s.

Citovat tuto práci

Citace dle normy ČSN ISO 690

BUŠTA, Jan. Automatická extrakce slovesných idiomů z korpusu. Online. Diplomová práce. Brno: Masarykova univerzita, Fakulta informatiky. 2012. Dostupné z: https://is.muni.cz/th/bjf08/.

@MastersThesis{Busta2012thesis, AUTHOR = {Bušta, Jan}, TITLE = {Automatická extrakce slovesných idiomů z korpusu}, YEAR = {2012}, TYPE = {Diplomová práce}, INSTITUTION = {Masarykova univerzita, Fakulta informatiky}, LOCATION = {Brno}, SUPERVISOR = {Miloš Jakubíček}, URL = {https://is.muni.cz/th/bjf08/}, URL_DATE = {2026-07-01}, }

{{Citace kvalifikační práce | příjmení = Bušta | jméno = Jan | instituce = Masarykova univerzita, Fakulta informatiky | odkaz na instituci = Fakulta informatiky Masarykovy univerzity | titul = Automatická extrakce slovesných idiomů z korpusu | url = https://is.muni.cz/th/bjf08/ | typ práce = Diplomová práce | vedoucí = Miloš Jakubíček | odkaz na vedoucího = {{UČO na článek|172962}} | místo = Brno | rok = 2012 | počet stran = | strany = | citace = 2026-07-01 | poznámka = | jazyk = }}

Masarykova univerzita Fakulta informatiky

Studijní program

Informatika

Obor

Umělá inteligence a zpracování přirozeného jazyka

Práce na příbuzné téma

Seznam prací, které mají shodná klíčová slova.

Prefixalnyje suščestvitělnyje v russkom i češskom jazyke: korpusnoje issledovanije prefixa bez-

Bc. Iva Táborská
Variantnost užívání tvarů 1. os. sg. a 3. os. pl. sloves typů krýt, kupovat a mazat (na materiále Českého národního korpusu)

Mgr. Štěpánka Mendlová
Webové rozhraní pro automatický jazykový korektor češtiny

Mgr. Vojtěch Mrkývka, Ph.D., učo 421310
Bilingualism and Interference: A Corpus-based Linguistic Analysis of Bilingual Children’s Speech in a Czech-English Environment

Bc. Lucie Olijnyková
Webový korektor jako prostředek formalizace pravidel českého jazyka

Mgr. Vojtěch Mrkývka, Ph.D., učo 421310
Doplněk do prohlížeče pro automatický jazykový korektor

Mgr. Bc. Matouš Ejem, učo 393725
Glagoly na -nuť/-nout v russkom i češskom jazykach

Mgr. Julie Jakovcová
Výpočet četností výskytů hesel SČFI v korpusu

Mgr. Jan Bušta, učo 172959

Podobné práce

Název

Vložil

Vloženo

Práva

Archiv závěrečné práce Jan Bušta FI N-IN UMI, učo 172959 bjf08/7

Bušta, J.

8. 1. 2012

Složky

Soubory

Anotace anglicky annotation_english.txt

Bušta, J.

9. 1. 2012

Anotace česky annotation.txt

Bušta, J.

9. 1. 2012

Klíčová slova keywords.txt

Bušta, J.

9. 1. 2012

Plný text práce dp.pdf

Bušta, J.

9. 1. 2012

Posudek oponenta dp-busta.pdf

Rychlý, P.

2. 2. 2012

Příloha dp_priloha.tar.gz

Bušta, J.

9. 1. 2012

Přidání souboru

Soubor nebo složku lze nahrát pomocí tlačítka Přidat.
Další operace se soubory

Podrobnosti lze zjistit označením příslušného řádku.
Pohled pro experty

Pro častou práci je možné zvolit režim Více možností.
Vyhledávání souborů

Vyhledávaný výraz můžete zadat přímo do adresního řádku.
Rychlý přístup k souborům

Pomocí funkce Nedávné je možné se rychle vrátit k právě prohlíženým souborům. Oblíbené soubory je také možné označit Hvězdičkou.

Závěrečná práce: Bc. Jan Bušta, učo 172959: Automatická extrakce slovesných idiomů z korpusu

Diplomová práce

Automatická extrakce slovesných idiomů z korpusu

Automatic retrieval of varbal idioms from corpora

Anotace

Abstract

Klíčová slova

Zadání práce

Přílohy

Vedoucí

Oponent

Literatura

Citace dle normy ČSN ISO 690

Práce na příbuzné téma

Složky

Soubory

Přidání souboru

Další operace se soubory

Pohled pro experty

Vyhledávání souborů

Rychlý přístup k souborům