Závěrečná zpráva grantu 096/1997/A-FG/FF

Název projektu:Korpus mluvené češtiny v počítačovém zpracování II
Hlavní řešitel:PhDr. Jiří Pešička
Spoluřešitelé: Prof. PhDr. František Čermák, DrSc.; PhDr. Josef Šimandl; PhDr. Jitka Šonková, CSc.; PhDr. Petr Savický, CSc.; PhDr. Ana Adamovičová
Období řešení:1997-1999
Celková dotace:320 tis. Kč

Souhrn výsledků

Tato zpráva podává informaci o průběhu závěrečných fází na projektu Frekvenčního slovníku běžně mluvené češtiny. Jedná se o vůbec první příspěvek k výzkumu mluveného jazyka založenému na rozsáhlých datech Korpusu mluvené češtiny, který se ukládá i zpracovává na počítačové bázi. Definitivní realizací veškerých etap práce bude vytvořen jeden ze základních předpokladů úspěšného a současné situaci adekvátního studia českého jazyka vůbec.
     V roce 1999 se prací na projektu zúčastnil stejný kolektiv pracovníků Ústavu bohemistických studií jako v letech předchozích, tj. PhDr. Ana Adamovičová, PhDr. Jiří Pešička pod vedením Prof. PhDr. Františka Čermáka, DrSc. a dále externí pracovník PhDr. Josef Šimandl.
     Korpus mluvené češtiny je vedle své vlastní hodnoty také součástí širšího fakultního úkolu Výzkum mluvené češtiny. Od počátku práce na přelomu let 1989/1990 (práce předchozích etap byly finančně pokryty univerzitním grantem v letech 1994-1996) získali řešitelé vědeckého úkolu více než 700 tis. slovních jednotek běžně mluveného jazyka. Za značného časového nasazení a při vynaložení velké obětavosti  byl nahraný materiál přepisován do počítačové podoby a postupně kódován, tj. jednotlivá slova a slovní tvary dostávaly podle předem dohodnutých pravidel jistý kód, který je plně charakterizoval jak z hlediska systémového, tak z hlediska textového.  Po celou dobu práce na projektu vyvstávalo velké množství dosud teoreticky neřešených problémů, kterým byla věnována značná pozornost při pravidelných pracovních schůzkách. Často se ukazovalo, že při řešení nesčetných konkrétních otázek, zejména v etapě kódování, nebylo možné hledat inspiraci v dosavadních poznatcích domácí i zahraniční bohemistiky, protože se daným otázkám dosud nevěnovala nebo jen nedostatečně. Charakter zpracovávání materiálu přirozeně vedl pracovníky k tomu, že se museli i opakovaně vracet k předchozím etapám práce a provádět dílčí korekce. Vylaďování a sjednocování přístupů jednotlivých členů kolektivu má v tomto typu vědeckého výzkumu naprosto zásadní význam.
    V návaznosti na souhrnné přehledy jednotlivých etap práce podávané v dřívějších dílčích zprávách uvádíme současný stav dopracovanosti závěrečných fází výzkumu:
1. Slučování a konverze dílčích kódování vč. přípravy pro databázové zpracování a vyhledávání na výstupu, jehož součástí bude i program pro výstup, který už přímo umožní tisk - probíhají praktické přípravy na realizaci.
2. Kódování, tj. přiřazování některého z mnohaciferných kódů každé lexikální jednotce zachycuje kategoriální vlastnosti lexikální, morfologické a syntaktické i vybrané aspekty sémantické - těsně před úplným dokončením.
3. Závěrečné scelování dat, jejich konverze do vyhodnocovacího a statistického následného programu, jeho případná úprava a konečný frekvenční a statistický výstup v podobě seznamů a frekvenčního slovníku spolu s vypracováním obsáhlé předmluvy k celému projektu, v níž budou zdůvodněny často netradiční přístupy k jednotlivým teoretickým problémům - ve stadiu promýšlení a postupného formulování.
4. Kolektivní a individuální výstupy v podobě teoretických monografií, přehledů, článků a studií založených na materiálu - začíná se postupně realizovat.
Pozn.: Zvukový i grafický materiál ke slovníku byl na základě přátelské nabídky brněnského pracoviště obdobného charakteru zpracován pro interní potřeby v podobě dvou CDROM.