Počítače a přirozený jazyk

FJFI, léto 2005/2006

Dostupnost Ondřeje Bojara

20. 6. - 1. 7. nedostupný
2. 7. - 9. 7. v ČR
9. 7. - 20. 8. mimo ČR, v dosahu Internetu
22. 8. - 25. 8. spíše nedostupný

Obsah

Datum Téma Slidy
2006-02-22 Úvod, nástroje, metrika kvality překladu velké k tisku
2006-03-01 Přehled součástí SMT (statistického strojového překladu) velké k tisku
Výběr z přednášek Chrise Callison-Burche a Philippa Koehna:
Phrase-based (ngramový, frázový) statistický strojový překlad
Extrakce frází
Dekódování (hledání optimálního překladu)
velké k tisku
velké k tisku
velké k tisku
2006-03-08 Rozdělení témat na zápočtové "projekty".
Do příště: získat (ode mne ap.) literaturu a podrobněji si specifikovat úlohu.
-
2006-03-15 První společná debata nad postupem prací ve skupinkách. -
2006-03-22 První společná debata nad podrobnějším zacílením skupinkové práce.
Do příště: základ článku v LaTeXu, zejména titulek, abstrakt, a rozdělení na sekce
-
2006-03-29 Druhá debata nad postupem prací. Nutné součásti abstraktu: co řeším za problém, jak ho řeším, jak vyhodnocuji, došlo-li ke zlepšení, a jak to tedy vyšlo. -
2006-04-05 Ukázkové experimenty se strojovým překladem, jako inspirace k vlastním pokusům.
Dohoda o předávání dat.
velké k tisku
2006-04-12 Konzultace ve skupinkách. -
2006-04-19 Výklad modelu IBM1 pro zarovnání po slovech. -
2006-04-26 Dohoda o plánovaných experimentech.
Do příště: za každou skupinku podrobný seznam experimentů.
-
2006-05-03 Konzultace ve skupinkách. -
2006-05-10 Konzultace ve skupinkách. -
2006-05-17 Hodina odpadá, sportovní den. -
2006-05-24 LaTeX, BibTeX
Shrnutí požadavků na zápočet: viz slidy k první hodině, publikace stačí česky
-

Užitečné odkazy a zdroje

Rozdělení na skupinky

Rozdělení a seznam lidí je možné ještě do 22.3. měnit. (Kdo se nezařadí do nějaké skupinky do začátku dubna, nemůže usilovat o zápočet.)

Předběžný přehled o návaznostech mezi skupinkami.

Schéma kreslí graphviz sám, z tohoto předpisu.

Sběr a čištění paralelních textů

Jaromír Müller, Václav Müller, Vladimír Jarý, František Jahoda

Předzpracování: generování hezkých vět z odrážek, seznamů ap.

Václav Hoblík, Jakub Libič, Tomáš Palyza, Petr Meszáros, Martin Kult

Experimenty s alignmentem a extrakcí frází, GIZA++

David Koudelka, Miroslav Jahoda, Jana Broncová

Překladač (Pharaoh)

Igor Skokan, Tomáš Bělíček

Evaluace, mt_eval a modifikace metriky

Michal Havlíček

Využití syntaktické analýzy ke zlepšení překladu (např. interpunkce)

Pavel Štěpánek

Rákosníček: Generování českých tvarů z lemmatické věty

Petr Macháček, Tomáš Beneda

Podklady k domácím úkolům a zápočtovým úlohám

Soubor anglických vět k přeložení

Pro zajímavost stav překladů k 1. 3. Jak jsem se díval, nelze číslům úplně věřit. Některé soubory mají matoucí matoucí konce řádků, některé obsahují prázdné řádky a některé obsahují i nepřeložené věty.

Beneda, Haken ? + kolegové Havlíček pre-release Skokan + kolegové Kult + Mezsáros + Palyza + Hoblik + Libič Müller + Koudelka + kolegové Bojar
2201 - - - - - 59 -
2202 1 - - 46 - - -
2203 18 - 18 18 17 18 -
2211 48 - - - 47 - -
2212 9 - 9 - - - -
2214 13 - - - - - -
2222 38 - - - 37 - -
2246 10 - - - 9 - -
2248 7 - - - 7 - -
2249 9 - - - - - -
2303 28 - - - 28 29 29
2308 24 - - - - 44 44
2309 - - - - - 17 17
2313 - - - - - - 11
2315 - - - 12 - - -
2332 - - - 9 - 16 -
2338 - - - 28 27 - -
2393 - 11 - 10 - 27 -
2399 - 27 - 28 - 29 -
2406 - 50 - 22 49 - -
2435 - 10 - - 9 12 -
2436 - 11 - - 10 11 -
Celkem 205 109 27 173 240 262 101

Součásti systému frázového statistického překladu


Ondřej Bojar, 2006-05-24