Багатомовні корпуси Інституту славістики Польської академії наук – CLARIN-PL. Польсько-литовський паралельний корпус «2» та Польсько-український паралельний корпус
DOI:
https://doi.org/10.18523/lcmp2522-9281.2020.6.146-170Ключові слова:
CLARIN ERIC, Clarin-PL, паралельні корпуси, польсько-український паралельний корпус, польсько-литовський паралельний корпусАнотація
У статті описано групу Clarin-PL, яка є польським представництвом Європейської дослідницької інфраструктури CLARIN ERIC. Представлено завдання та цілі інфраструктури CLARIN ERIC та групи Clarin-PL. Як приклади подано окремі мовні засоби та ресурси, розроблені групою Clarin-PL. Особливу увагу присвячено тим багатомовним ресурсам, головна роль у побудові яких належить команді Інституту славістики Польської академії наук (ІС ПАН), зокрема це два розширені багатомовні корпуси сучасних текстів Polish-Lithuanian Parallel Corpus «2» i Polish-Ukrainian Parallel Corpus. Схарактеризовано провідну роль ІС ПАН у побудові групою Clarin-PL багатомовних корпусів. Окреслено нові, вже розпочаті та заплановані завдання, пов’язані з побудовою багатомовних ресурсів Clarin-PL.
Матеріал надійшов 02.09.2020
Посилання
- Dimitrova, L., Koseska-Toszewa, V., Roszko, D., & Roszko R. (2010). Application of Multilingual Corpus in Contrastive Studies (on the example of the Bulgarian-Polish-Lithuanian Parallel Corpus). Cognitive Studies/Études cognitives, 10, 217–239. https://dx.doi.org/10.11649/cs.2010.009
- Dimitrova, L., Koseska-Toszewa, V., Roszko, D., & Roszko, R. (2009). Bulgarian-Polish-Lithuanian Corpus – Current Development. In C. Vertan, S. Piperidis, E. Paskaleva, M. Slavcheva (Eds.), International Workshop. Multilingual Resources, Technologies and Evaluation for Central and Eastern European Languages held in conjunction with The International Conference RANLP-2009, Proceedings. Borovets (pp. 1–8).
- Dimitrova, L., Koseska-Toszewa, V., Roszko, D., & Roszko, R. (2014). Trilingual Aligned Corpus – Current State and New Applications. Cognitive Studies | Études cognitives, 14, 13–20. https://dx.doi.org/10.11649/cs.2014.002
- Duškin, M. (2010). Wykładniki przybliżoności adnumeratywnej w języku polskim i rosyjskim. Warszawa: Instytut Slawistyki PAN.
- Grabar, N., Kanishcheva, O., & Hamon, T. (2019). Multilingual aligned corpus with Ukrainian as the target language. In SlaviCorp. Prague, Czech Republic. ffhalshs-01968343. InterCorp. Retrieved from http://www.korpus.cz/intercorp/.
- Jaskot, M., Ganoszenko, Ju., Sosnowski, W., & Tymoshuk, R. (2017). Leksykon aktywnej frazeologii polskiej i ukraińskiej. Warszawa: KJV Digital.
- Jaskot, M., & Sosnowski, W. (2017). O fałszywych przyjaciołach tłumacza na przykładzie Leksykonu aktywnej frazeologii polskiej i ukraińskiej. In Barbara Borkowska-Kępska, Grzegorz Gwóźdź (Eds.), LSP Perspectives 2. Języki specjalistyczne – nowe perspektywy 2 (pp. 55–62). Dąbrowa Górnicza: Wyższa Szkoła Biznesu w Dąbrowie Górniczej.
- Kisiel., A., Koseska-Toszewa, V., Kotsyba, N., Satoła-Staśkowiak, J., and Sosnowski, W. (2016). Polish-Bulgarian-Russian Parallel Corpus, CLARIN-PL digital repository,http://hdl.handle.net/11321/308).
- Klimova, J. (s. d.), Czech National Corpus (CNC). Retrieved from http://www.sfs.uni- tuebingen.de/~dm/events/EastWest96/cnc.html.
- Korytkowska, M., Koseska-Toszewa, V., & Roszko, R. (2007). Polsko-bułgarska gramatyka konfrontatywna. Warszawa: Wydawnictwo Akademickie Dialog.
- Koseska-Toszewa V., & Mazurkiewicz A. (2010). Constructing catalogue of temporal situations. Cognitive Studies/Études cognitives, 10, 71–109. https://doi.org/10.11649/cs.2010.004
- Koseska-Toszewa, V., Roszko, R. (2015). On Semantic Annotation in CLARIN-PL Parallel Corpora. Cognitive Studies/Études cognitives, 15, 211–236. https://doi.org/10.11649/cs.2015.016
- Koseska-Toszewa, V., & Penčev, J. (Eds.) (1988–2009). Gramatyka konfrontatywna bułgarsko-polska (Vol. I–IX). Sofia; Warszawa.
- Koseska-Toszewa, V., & Roszko, R. (2016). Języki słowiańskie i litewski w korpusach równoległych CLARIN-PL. Studia z Filologii Polskiej i Słowiańskiej, 51, 191–217. https://doi.org/10.11649/sfps.2016.011
- Koseska-Toszewa, V., & Satoła-Staśkowiak, J. (2014). Wprowadzenie teoretyczno-metodologiczne do „Współczesnego słownika bułgarsko-polskiego”. In A. Kisiel (Ed.), Współczesny słownik bułgarsko-polski (pp. 1–18). Warszawa: Instytut Slawistyki PAN.
- Kotsyba, N. (2012). PolUKR (a Polish-Ukrainian Parallel Corpus) as a Testbed for a Parallel Corpora Toolbox. Prace Filologiczne, LXIII, 181–196.
- Kotsyba, N. (2016). Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2. In E. Gruszczyńska, A. Leńko-Szymańska (Eds.), Polskojęzyczne korpusy równoległe. Polish-language Parallel Corpora (pp. 133–142). Warszawa: Instytut Lingwistyki Stosowanej.
- Levchuk, P., & Roszko, R. (2020). Bahatomovni korpusy slov’yans’kykh ta baltiys’kykh mov Clarin-PL. In Nataliya Mykhal’chuk, & Svitozara Bihunova (Eds.), Suchasni problemy hermans’koho ta romans’koho movoznavstva. Materialy V Mizhnarodnoyi naukovo-praktychnoyi konferentsiyi [Modern Issues in Germanic and Romance Linguistics. Materials V International Research Scientific and Practical Conference ] (pp. 18–27). Retrieved from https://drive.google.com/file/d/1w4znaJgYOH_VAfjgGwT4q19EQRSusVIC/view [in Ukrainian].
- MultTex-East. Retrieved from https://www.researchgate.net/publication/266472851_Bulgarian_MUL-TEXT-East_Corpus_-_Structure_and_Content.
- MorfoLema. Retrieved from http://donelaitis.vdu.lt/MorfoLema/.
- ParaConc. Retrieved from http://www.athel.com/para.html.
- Rosen, A. (2016). InterCorp – a look behind the façade of a parallel corpus. Retrieved from https://rownolegle.ils.uw.edu.pl/files/2016/03/02_Rosen.pdf.
- Roszko, D. (2006a). Funkcjonalne odpowiedniki litewskiego perfectum w litewskiej gwarze puńskiej i w języku polskim. Warszawa: Instytut Slawistyki PAN.
- Roszko, D. (2006b). Formy perfectum i ich funkcje w litewskiej gwarze puńskiej. Acta Baltico- Slavica, 30, 519–531.
- Roszko, D. (2015). O innej anotacji leksykalnej w Eksperymentalnym korpusie gwary puńskiej. In D. Roszko, J. Satoła-Staśkowiak (Eds.), Semantyka a konfrontacja językowa (Vol. V, pp. 293–300). Warszawa: Instytut Slawistyki PAN.
- Roszko, D., & Roszko, R. (2009). Morphosyntactic Specifications for Polish and Lithuanian [Description of Morphosyntactic Markers for Polish and Lithuanian Nouns within MULTEXT-East Morphosyntactic Specifications (Version 3.0 May 10th, 2004)]. In V. Koseska-Toszewa, L. Dimitrova, R. Roszko (Eds.), Representing Semantics in Digital Lexicography. Innovative Solutions for Lexical Entry Content in Slavic Lexicography. MONDILEX Fourth Open Workshop. Warszawa, Poland, 29 June – 1 July, 2009. Proceedings (pp. 145–158). Warsaw: Institute of Slavic Studies, Polish Academy of Sciences.
- Roszko, D., & Roszko, R. (2012). Znachenija gipotetichnosti v litovskom, pol’skom jazykah i v litovskom govore okrestnostej Punska v Pol’she. Baltistica, 47 (1), 73–88 [in Ukrainian]. https://doi.org/10.15388/baltistica.47.1.2133
- Roszko, D., & Roszko, R. (2014). A Net Presentation of Lithuanian Sentences Containing Verbal Forms with the Grammatical Suffix -dav-, Cognitive Studies | Études cognitives, 14, 173–182. https://doi.org/10.11649/cs.2014.014
- Roszko, D., & Roszko, R. (2016a). Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej z zakresu modalności możliwościowej i kwantyfikacji zakresowej. In E. Gruszczyńska, A. Leńko-Szymańska (Eds.), Polskojęzyczne korpusy równoległe. Polish language Parallel Corpora (pp. 119–132). Warszawa. Retrieved from http://repozytorium.ceon.pl/bitstream/handle/123456789/9717/07_Roszko_Roszko.pdf?sequence=1&isAllowed=y, http://rownolegle.blog.ils.uw.edu.pl/files/2016/03/0000_Korpusy.pdf.
- Roszko, D., & Roszko, R. (2016b). Polish-Lithuanian Parallel Corpus. CLARIN-PL digital repository. Retrieved from http://hdl.handle.net/11321/309.
- Roszko, D., & Roszko, R. (2018a). Polsko-litewskie korpusy IS PAN i CLARIN-PL. In Prace bałtystyczne.
- Roszko, D., & Roszko, R. (2018b). Polish-Lithuanian Parallel Corpus “2”. CLARIN-PL digital repository. Retrieved from http://hdl.handle.net/11321/539.
- Roszko, D., Roszko, R., & Sosnowski, W. (2018). Polish-Bulgarian Corpora ISS PAS (IS PAN) and CLARIN-PL. Slavica Lodziensia, 2.
- Roszko, D., Roszko, R., Sosnowski, W., & Satoła-Staśkowiak, J. (2018). Polish-Bulgarian Parallel Corpus. CLARIN-PL digital repository. Retrieved from http://hdl.handle.net/11321/536.
- Roszko, R. (2004). Semantyczna kategoria określoności/nieokreśloności w języku litewskim (w zestawieniu z językiem polskim). Warszawa: Instytut Slawistyki PAN.
- Roszko, R. (2009). Description of Morphosyntactic Markers for Polish Verbs within MULTEXT-East Morphosyntactic Specifications (Version 3.0 May 10th, 2004). In V. Koseska-Toszewa, L. Dimitrova, R. Roszko (Eds.), Representing Semantics in Digital Lexicography. Innovative Solutions for Lexical Entry Content in Slavic Lexicography. MONDILEX Fourth Open Workshop. Warszawa, Poland, 29 June – 1 July, 2009. Proceedings (pp. 159–163). Warsaw: Institute of Slavic Studies, Polish Academy of Sciences.
- Roszko, R., Sosnowski, W., Duszkin, M., Roszko, D., & Tymoshuk, R. (2018). Polish-Russian Parallel Corpus. CLARIN-PL digital repository. Retrieved from http://hdl.handle.net/11321/534.
- Roszko, R., Tymoshuk, R., Duszkin, M., & Sosnowski, W. (2018). Polish-Ukrainian Parallel Corpus. CLARIN-PL digital repository. Retrieved from http://hdl.handle.net/11321/535.
- Satoła-Staśkowiak, J. (2010). From momentarity to perfective multiplicity. Different aspects of the aorist. Cognitive Studies/Études cognitives, 10, 127–132, https://doi.org/10.11649/cs.2010.007
- Sketch Engine. Retrieved from https://www.sketchengine.eu/.
- Sosnowski, W., & Tymoshuk, R. (2017a). Konfrontacja językowa polskich i ukraińskich jednostek frazeologicznych na przykładzie materiału z leksykonu aktywnej frazeologii polskiej i ukraińskiej. In D. Blagoeva, & L. Andreĭchin (Eds.), Bilgarsko-polski studii (pp. 91–108). Bŭlgarska akademiya na naukite institut za bŭlgarski ezik.
- Sosnowski, W., & Tymoshuk, R. (2017b). Novi pidkhody do stvorennya suchasnykh frazeolohichnykh slovnykiv (na materiali “Leksykona pol’s’koyi ta ukrayins’koyi aktyvnoyi frazeolohiyi”). Movoznavstvo, 2, 69–77 [in Ukrainian].
- Sosnowski, W., & Tymoshuk, R. (2017c). On “The dictionary of active Polish and Ukrainian phraseology”. Contrastive linguistics and culture. Cognitive Studies/ Études cognitives, 17. https://doi.org/10.11649/cs.1317
- Sosnowski, W., & Tymoshuk, R. (2017d). O rabote nad “Leksikonom pol’skoj i ukrainskoj aktivnoj frazeologii”. In L. Janovec, R. K. Brabcová, V. Skibina, Z. Wildová (Eds.), Svět v obrazech a ve frazeologii / World in Pictures and in Phraseology (pp. 269–276). Univerzita Karlova, Pedagogická fakulta [in Ukrainian].
- Sosnowski, W., Blagoeva, D., & Jaskot, M. (2019a). Kŭm vŭprosa za mezhduezikovata ekvivalentnost pri frazeologiyata (leksikografski aspekti). In Vanya Micheva, Diana Blagoeva, Sia Kolkovska, Tatyana Aleksandrova, Hristina Deykova (Eds.), International Annual Conference of the Institute for Bulgarian Language (pp. 76–82). Sofia: Instytut Języka Bułgarskiego BAN.
- Sosnowski, W., Blagoeva, D., & Jaskot, M. (2019b). A lexicographical approach to the contrastive analysis of Bulgarian and Polish phraseology. Cognitive Studies/ Études cognitives, 19, 1–17. https://doi.org/10.11649/cs.1923
- Sosnowski, W., Blagoeva, D., & Jaskot, M. (2019c). O koncepcji “Leksykonu aktywnej frazeologii bułgarskiej i polskiej”. Izvestiya na Instituta za bŭlgarski ezik ‘Prof. Lyubomir Andreĭchin‘, 32, 134–159.
- Sosnowski, W., Blagoeva, D., & Tymoshuk, R. (2018). New Bulgarian, Polish, and Ukrainian phraseology and language corpora. Cognitive Studies/Études cognitives, 18, 1–13. https://doi.org/10.11649/cs.1768
- Sosnowski. W. (2017). Od słowa do działania, czyli o nauczaniu słownictwa poprzez tekst. Języki Obce w Szkole, 3, 41–46.
- TaKIPI. Retrieved from http://nlp.pwr.wroc.pl/narzedzia-i-zasoby/narzedzia/takipi.
- Tiedemann, J. (2016). OPUS – parallel corpora for everyone. In Proceedings of the 19th annual conference of the European Association for Machine Translation (EAMT). Riga.
- Turska, M., & Kotsyba, N. (2006). Polsko-ukraiński korpus równoległy (PolUKR). Biuletyn Polskiego Towarzystwa Językoznawczego, 62, 83–92.
- Waldenfels, R. von, & Meyer, R. (2006). ParaSol, a Corpus of Slavic and Other Languages. Retrieved from parasol.unibe.ch.
##submission.downloads##
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2020 Pavlo Levchuk, Danuta Roszko, Roman Roszko
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:
а) Автори зберігають за собою авторські права на твір на умовах ліцензії Creative Commons Attribution License CC BY 4.0, котра дозволяє іншим особам вільно поширювати (копіювати і розповсюджувати матеріал у будь-якому вигляді чи форматі) та змінювати (міксувати, трансформувати, і брати матеріал за основу для будь-яких цілей, навіть комерційних) опублікований твір на умовах зазначення авторства.
б) Журнал дозволяє автору (авторам) зберігати авторські права без обмежень.
в) Автори мають право укладати самостійні додаткові угоди щодо поширення твору (наприклад, розміщувати роботу в електронному репозитарії), за умови збереження посилання на його першу публікацію. (Див. Політика Самоархівування)
г) Політика журналу дозволяє розміщення авторами в мережі Інтернет (наприклад, у репозитаріях) тексту статті, як до подання його до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).