
Višerječni izrazi u hrvatskome jeziku – leksikološki, računalnolingvistički i glotodidaktički pristup
Multiword Expressions in Croatian – Lexicological, Computational Linguistic and Glottodidactic Approach
akronim: MWE-Cro
projekt financira: Hrvatska zaklada za znanost
šifra projekta: IP-2022-10-7697
matična ustanova: Institut za hrvatski jezik
trajanje projekta: 31. prosinca 2023. – 30. prosinca 2027.
logotip projekta:

voditeljica projekta / project leader: dr. sc. Goranka Blagus Bartolec

Sažetak projekta
Glavni je cilj projekta razviti mrežno pretraživ i javno dostupan repozitorij višerječnih izraza hrvatskoga jezika s opisom njihovih gramatičkih i značenjskih obilježja. Podatci uneseni u bazu bit će koristan izvor za: 1. različita jezikoslovna istraživanja, 2. unaprjeđenje korpusnih alata za prepoznavanje višerječnih izraza (općih i stručnih kolokacija, frazema, poslovica, pragmema, gramatičkih sveza), 3. istraživanja na kontrastivnoj razini za potrebe prevođenja, izrade paralelnih korpusa te u poučavanju i učenju hrvatskoga kao inoga jezika. Kategorizacija višerječnih izraza temeljit će se na postojećim teorijskim opisima višerječnih izraza, osobito onim kojima su određene suvremene smjernice proučavanja takvih sveza u 21. stoljeću, što uključuje primjenu i unapređenje korpusnih i računalnih tehnologija, primjenu višerječnih izraza u govoru te njihovu percepciju pri usvajanju hrvatskoga kao inoga jezika. U okviru projekta razvit će se 5 baza – opća baza višerječnih izraza, baza frazema, baza hrvatskih poslovica, baza višerječnih izraza u okviru hrvatskoga kao inoga jezika, baza glagolskih kolokacija hrvatskoga, poljskoga, njemačkoga i engleskoga jezika. Poslovice kao plodna skupina višerječnih izraza temeljenih na izricanju narodnih mudrosti, za razliku od frazema, znatno su manje zastupljene u suvremenim leksikografskim izvorima, korpusima i u nastavi Hrvatskoga jezika, što nameće potrebu njihova uvrštavanja u mrežnu bazu kako bi bile dostupne i sadašnjim i budućim, izvornim i stranim, govornicima hrvatskoga jezika. Glagolske kolokacije u hrvatskom i drugim jezicima važna su i složena skupina višerječnih izraza, a izrada baze glagolskih kolokacija kao i drugih višerječnih sveza olakšala bi i unaprijedila poučavanje hrvatskoga kao inoga jezika. Baze višerječnih izraza danas su jedan od temeljnih jezičnih resursa svakoga jezika te ključna karika u razvoju obrade prirodnoga jezika. Stoga je izrada takva mrežnog resursa strateški važna i za hrvatski jezik te za povezivanje hrvatskoga jezika s drugim jezicima (poljskim, njemačkim, engleskim).
Summary
The main objective of the project is to develop an online searchable and publicly available repository of multiword expressions (MWEs) in Croatian with a description of their grammatical and semantic features. The data entered into the database will be a useful source for: 1 various linguistic researches, 2 improvement of corpus tools for detecting MWEs (collocations, idioms, proverbs, grammatical phrases), 3 the contrastive research applicable in translation, creating parallel corpora, and learning Croatian as a foreign language. The classification of MWEs will be based on the existing theoretical descriptions, especially those that have determined the modern guidelines for the study of such phrases in the 21st century, which includes the improvement of corpus and computer technologies, the use of MWEs in a spoken context and adopting Croatian as foreign language. The project proposal includes the development of 5 databases – a basic database of MWEs, an idiom database, a proverb database, a database of MWEs in Croatian as foreign language, a database of verb collocations in Croatian, Polish, German, and English. Proverbs, based on the folk wisdom, unlike idioms, are less represented MWEs in contemporary lexicography, corpora and teaching of Croatian, which imposes the need to include them in an online database so that they are available to native and non-native speakers of Croatian. Verb collocations in Croatian and other languages are an important and complex group of MWEs that require special attention when learning the language. Development of the Verb collocations database, as well as other multiword expressions, would facilitate and thus improve the teaching of Croatian as a second and foreign language. Today, databases of MWEs are one of the fundamental linguistic resources of every language and a key link in the improvement of natural language processing. Therefore, this online resource is strategically important for Croatian and for relationship between Croatian and other languages (Polish, German, English).