Počítače a přirozený jazyk

FJFI, léto 2005/2006

Dostupnost Ondřeje Bojara

20. 6. - 1. 7.	nedostupný
2. 7. - 9. 7.	v ČR
9. 7. - 20. 8.	mimo ČR, v dosahu Internetu
22. 8. - 25. 8.	spíše nedostupný

Obsah

Datum	Téma	Slidy
2006-02-22	Úvod, nástroje, metrika kvality překladu	velké k tisku
2006-03-01	Přehled součástí SMT (statistického strojového překladu)	velké k tisku
2006-03-01	Výběr z přednášek Chrise Callison-Burche a Philippa Koehna: Phrase-based (ngramový, frázový) statistický strojový překlad Extrakce frází Dekódování (hledání optimálního překladu)	velké k tisku velké k tisku velké k tisku
2006-03-08	Rozdělení témat na zápočtové "projekty". Do příště: získat (ode mne ap.) literaturu a podrobněji si specifikovat úlohu.	-
2006-03-15	První společná debata nad postupem prací ve skupinkách.	-
2006-03-22	První společná debata nad podrobnějším zacílením skupinkové práce. Do příště: základ článku v LaTeXu, zejména titulek, abstrakt, a rozdělení na sekce	-
2006-03-29	Druhá debata nad postupem prací. Nutné součásti abstraktu: co řeším za problém, jak ho řeším, jak vyhodnocuji, došlo-li ke zlepšení, a jak to tedy vyšlo.	-
2006-04-05	Ukázkové experimenty se strojovým překladem, jako inspirace k vlastním pokusům. Dohoda o předávání dat.	velké k tisku
2006-04-12	Konzultace ve skupinkách.	-
2006-04-19	Výklad modelu IBM1 pro zarovnání po slovech.	-
2006-04-26	Dohoda o plánovaných experimentech. Do příště: za každou skupinku podrobný seznam experimentů.	-
2006-05-03	Konzultace ve skupinkách.	-
2006-05-10	Konzultace ve skupinkách.	-
2006-05-17	Hodina odpadá, sportovní den.	-
2006-05-24	LaTeX, BibTeX Shrnutí požadavků na zápočet: viz slidy k první hodině, publikace stačí česky	-

Užitečné odkazy a zdroje

Velmi jemný úvod do Unixu (roury, grep, wc, make, CVS). Původně pro lingvisty, takže pro vás hračka. velké k tisku
Help on LaTeX Commands - referenční příručka
Upovídanější stránka o LaTeXu na Wikipedii
Stručný popis BibTeXu (jak přidávat citace do LaTeXu)
Balík pro konverzi českých znaků a opisných sekvencí \'{a}.

Rozdělení na skupinky

Rozdělení a seznam lidí je možné ještě do 22.3. měnit. (Kdo se nezařadí do nějaké skupinky do začátku dubna, nemůže usilovat o zápočet.)

Předběžný přehled o návaznostech mezi skupinkami.

Schéma kreslí graphviz sám, z tohoto předpisu.

Podklady k domácím úkolům a zápočtovým úlohám

Soubor anglických vět k přeložení

anglicke_vety_k_prekladu.tgz (celkem 515 vět rozdělených po souborech, ve dvou adresářích)
Úkol: vyrobte 4 nezávislé překlady do češtiny.
Při překládání:
- Zachovejte strukturu (členění na soubory, adresáře i jednotlivé věty).
- Pokuste se o dobrý překlad (hledejte ve slovnících, na webu, raďte se s kolegy, ale jen z vaší skupinky!
Moje vlastní zkušenost: překlad souborů wsj2303, 2308, 2309 a 2313 (celkem 101 vět) trval 2 hodiny 30 minut. To je sice víc, než jsem chtěl, ale není to tak strašné.
Zkušenost jednoho z vašich kolegů: soubor 2202 je o baseballu a naprosto nesrozumitelný. Po šesti hodinách práce byl váš nebohý kolega ve třetině úkolu. Prosím všechny, aby nejpozději po pěti hodinách práci na úkolu ukončili.

Pro zajímavost stav překladů k 1. 3. Jak jsem se díval, nelze číslům úplně věřit. Některé soubory mají matoucí matoucí konce řádků, některé obsahují prázdné řádky a některé obsahují i nepřeložené věty.

	Beneda, Haken	? + kolegové	Havlíček pre-release	Skokan + kolegové	Kult + Mezsáros + Palyza + Hoblik + Libič	Müller + Koudelka + kolegové	Bojar
2201	-	-	-	-	-	59	-
2202	1	-	-	46	-	-	-
2203	18	-	18	18	17	18	-
2211	48	-	-	-	47	-	-
2212	9	-	9	-	-	-	-
2214	13	-	-	-	-	-	-
2222	38	-	-	-	37	-	-
2246	10	-	-	-	9	-	-
2248	7	-	-	-	7	-	-
2249	9	-	-	-	-	-	-
2303	28	-	-	-	28	29	29
2308	24	-	-	-	-	44	44
2309	-	-	-	-	-	17	17
2313	-	-	-	-	-	-	11
2315	-	-	-	12	-	-	-
2332	-	-	-	9	-	16	-
2338	-	-	-	28	27	-	-
2393	-	11	-	10	-	27	-
2399	-	27	-	28	-	29	-
2406	-	50	-	22	49	-	-
2435	-	10	-	-	9	12	-
2436	-	11	-	-	10	11	-
Celkem	205	109	27	173	240	262	101

Součásti systému frázového statistického překladu

Paralelní texty (dodám, uvítám sběr dalších)
Základem nám bude Prague Czech-English Dependency Treebank, z něho jsou i ty referenční překlady.

V případě nově dohledávaných textů prosím o konzultaci, řadu elektronických knih už mám zpracovánu, řada však by se ještě najít dala. Nejlepším zdrojem pro anglické knihy je zřejmě Project Gutenberg.

Pro nově získané texty je nutné provést zarovnání po větách (sentence alignment). K dispozici je více nástrojů (viz google), zatím si myslím, že by nám mohla vyhovovat implementace algoritmu Churche a Galea, která je k dispozici v balíku UPLUG. Ještě lepší implementaci jsem ale našel pod názvem hunalign. Umí dokonce cyklicky vylepšovat alignment pomocí slovníku, který se sama naučí.
Zarovnání po slovech.
Základem bude GIZA++.
Spojování alignmentů a extrakce frází
Pro dekodér Pharaoh jeho autor Philipp Koehn na své domovské stránce poskytuje balíček nástrojů (Pharaoh Training).
Dekodér (překladač, hledání optimální výstupní věty)
Použijeme Pharaoh. Pro stažení je nutné se zaregistrovat, je však volně k dispozici.

Jinou možností by byl ISI ReWrite Decoder, který dělá pouze slovní, nikoli frázový překlad.
Jazykové modelování
Existuje více možností, nevhodnější je asi SRI Language Modelling Toolkit. Opět volně k dispozici po zaregistrování se.
Morfologie pro češtinu
Použijeme Czech Free Morphology.
Vyhodnocení
Použijeme oficiální skript pro NIST evaluaci.

Ondřej Bojar, 2006-05-24

Počítače a přirozený jazyk

FJFI, léto 2005/2006

Dostupnost Ondřeje Bojara

Obsah

Užitečné odkazy a zdroje

Rozdělení na skupinky

Sběr a čištění paralelních textů

Předzpracování: generování hezkých vět z odrážek, seznamů ap.

Experimenty s alignmentem a extrakcí frází, GIZA++

Překladač (Pharaoh)

Evaluace, mt_eval a modifikace metriky

Využití syntaktické analýzy ke zlepšení překladu (např. interpunkce)

Rákosníček: Generování českých tvarů z lemmatické věty

Podklady k domácím úkolům a zápočtovým úlohám

Soubor anglických vět k přeložení

Součásti systému frázového statistického překladu