Багатомовні корпуси Інституту славістики Польської академії наук – CLARIN-PL. Польсько-литовський паралельний корпус «2» та Польсько-український паралельний корпус

Автор(и)

DOI:

https://doi.org/10.18523/lcmp2522-9281.2020.6.146-170

Ключові слова:

CLARIN ERIC, Clarin-PL, паралельні корпуси, польсько-український паралельний корпус, польсько-литовський паралельний корпус

Анотація

У статті описано групу Clarin-PL, яка є польським представництвом Європейської дослідницької інфраструктури CLARIN ERIC. Представлено завдання та цілі інфраструктури CLARIN ERIC та групи Clarin-PL. Як приклади подано окремі мовні засоби та ресурси, розроблені групою Clarin-PL. Особливу увагу присвячено тим багатомовним ресурсам, головна роль у побудові яких належить команді Інституту славістики Польської академії наук (ІС ПАН), зокрема це два розширені багатомовні корпуси сучасних текстів Polish-Lithuanian Parallel Corpus «2» i Polish-Ukrainian Parallel Corpus. Схарактеризовано провідну роль ІС ПАН у побудові групою Clarin-PL багатомовних корпусів. Окреслено нові, вже розпочаті та заплановані завдання, пов’язані з побудовою багатомовних ресурсів Clarin-PL.

Матеріал надійшов 02.09.2020

Біографії авторів

Павло Левчук, Польська академія наук

доктор, адʼюнкт Відділу мовознавства Інституту славістики Польської академії наук

p.levchuk@ispan.edu.pl

Данута Рошко, Варшавський університет

доктор габілітований, адʼюнкт Відділу балтистики Варшавського університету

Роман Рошко, Польська академія наук

доктор габілітований, професор Інституту славістики Польської академії наук

roman.roszko@ispan.waw.pl

Посилання

  1. Dimitrova, L., Koseska-Toszewa, V., Roszko, D., & Roszko R. (2010). Application of Multilingual Corpus in Contrastive Studies (on the example of the Bulgarian-Polish-Lithuanian Parallel Corpus). Cognitive Studies/Études cognitives, 10, 217–239. https://dx.doi.org/10.11649/cs.2010.009
  2. Dimitrova, L., Koseska-Toszewa, V., Roszko, D., & Roszko, R. (2009). Bulgarian-Polish-Lithuanian Corpus – Current Development. In C. Vertan, S. Piperidis, E. Paskaleva, M. Slavcheva (Eds.), International Workshop. Multilingual Resources, Technologies and Evaluation for Central and Eastern European Languages held in conjunction with The International Conference RANLP-2009, Proceedings. Borovets (pp. 1–8).
  3. Dimitrova, L., Koseska-Toszewa, V., Roszko, D., & Roszko, R. (2014). Trilingual Aligned Corpus – Current State and New Applications. Cognitive Studies | Études cognitives, 14, 13–20. https://dx.doi.org/10.11649/cs.2014.002
  4. Duškin, M. (2010). Wykładniki przybliżoności adnumeratywnej w języku polskim i rosyjskim. Warszawa: Instytut Slawistyki PAN.
  5. Grabar, N., Kanishcheva, O., & Hamon, T. (2019). Multilingual aligned corpus with Ukrainian as the target language. In SlaviCorp. Prague, Czech Republic. ffhalshs-01968343. InterCorp. Retrieved from http://www.korpus.cz/intercorp/.
  6. Jaskot, M., Ganoszenko, Ju., Sosnowski, W., & Tymoshuk, R. (2017). Leksykon aktywnej frazeologii polskiej i ukraińskiej. Warszawa: KJV Digital.
  7. Jaskot, M., & Sosnowski, W. (2017). O fałszywych przyjaciołach tłumacza na przykładzie Leksykonu aktywnej frazeologii polskiej i ukraińskiej. In Barbara Borkowska-Kępska, Grzegorz Gwóźdź (Eds.), LSP Perspectives 2. Języki specjalistyczne – nowe perspektywy 2 (pp. 55–62). Dąbrowa Górnicza: Wyższa Szkoła Biznesu w Dąbrowie Górniczej.
  8. Kisiel., A., Koseska-Toszewa, V., Kotsyba, N., Satoła-Staśkowiak, J., and Sosnowski, W. (2016). Polish-Bulgarian-Russian Parallel Corpus, CLARIN-PL digital repository,http://hdl.handle.net/11321/308).
  9. Klimova, J. (s. d.), Czech National Corpus (CNC). Retrieved from http://www.sfs.uni- tuebingen.de/~dm/events/EastWest96/cnc.html.
  10. Korytkowska, M., Koseska-Toszewa, V., & Roszko, R. (2007). Polsko-bułgarska gramatyka konfrontatywna. Warszawa: Wydawnictwo Akademickie Dialog.
  11. Koseska-Toszewa V., & Mazurkiewicz A. (2010). Constructing catalogue of temporal situations. Cognitive Studies/Études cognitives, 10, 71–109. https://doi.org/10.11649/cs.2010.004
  12. Koseska-Toszewa, V., Roszko, R. (2015). On Semantic Annotation in CLARIN-PL Parallel Corpora. Cognitive Studies/Études cognitives, 15, 211–236. https://doi.org/10.11649/cs.2015.016
  13. Koseska-Toszewa, V., & Penčev, J. (Eds.) (1988–2009). Gramatyka konfrontatywna bułgarsko-polska (Vol. I–IX). Sofia; Warszawa.
  14. Koseska-Toszewa, V., & Roszko, R. (2016). Języki słowiańskie i litewski w korpusach równoległych CLARIN-PL. Studia z Filologii Polskiej i Słowiańskiej, 51, 191–217. https://doi.org/10.11649/sfps.2016.011
  15. Koseska-Toszewa, V., & Satoła-Staśkowiak, J. (2014). Wprowadzenie teoretyczno-metodologiczne do „Współczesnego słownika bułgarsko-polskiego”. In A. Kisiel (Ed.), Współczesny słownik bułgarsko-polski (pp. 1–18). Warszawa: Instytut Slawistyki PAN.
  16. Kotsyba, N. (2012). PolUKR (a Polish-Ukrainian Parallel Corpus) as a Testbed for a Parallel Corpora Toolbox. Prace Filologiczne, LXIII, 181–196.
  17. Kotsyba, N. (2016). Polsko-Ukraiński Korpus Równoległy PolUKR i jego następca PolUKR-2. In E. Gruszczyńska, A. Leńko-Szymańska (Eds.), Polskojęzyczne korpusy równoległe. Polish-language Parallel Corpora (pp. 133–142). Warszawa: Instytut Lingwistyki Stosowanej.
  18. Levchuk, P., & Roszko, R. (2020). Bahatomovni korpusy slov’yans’kykh ta baltiys’kykh mov Clarin-PL. In Nataliya Mykhal’chuk, & Svitozara Bihunova (Eds.), Suchasni problemy hermans’koho ta romans’koho movoznavstva. Materialy V Mizhnarodnoyi naukovo-praktychnoyi konferentsiyi [Modern Issues in Germanic and Romance Linguistics. Materials V International Research Scientific and Practical Conference ] (pp. 18–27). Retrieved from https://drive.google.com/file/d/1w4znaJgYOH_VAfjgGwT4q19EQRSusVIC/view [in Ukrainian].
  19. MultTex-East. Retrieved from https://www.researchgate.net/publication/266472851_Bulgarian_MUL-TEXT-East_Corpus_-_Structure_and_Content.
  20. MorfoLema. Retrieved from http://donelaitis.vdu.lt/MorfoLema/.
  21. ParaConc. Retrieved from http://www.athel.com/para.html.
  22. Rosen, A. (2016). InterCorp – a look behind the façade of a parallel corpus. Retrieved from https://rownolegle.ils.uw.edu.pl/files/2016/03/02_Rosen.pdf.
  23. Roszko, D. (2006a). Funkcjonalne odpowiedniki litewskiego perfectum w litewskiej gwarze puńskiej i w języku polskim. Warszawa: Instytut Slawistyki PAN.
  24. Roszko, D. (2006b). Formy perfectum i ich funkcje w litewskiej gwarze puńskiej. Acta Baltico- Slavica, 30, 519–531.
  25. Roszko, D. (2015). O innej anotacji leksykalnej w Eksperymentalnym korpusie gwary puńskiej. In D. Roszko, J. Satoła-Staśkowiak (Eds.), Semantyka a konfrontacja językowa (Vol. V, pp. 293–300). Warszawa: Instytut Slawistyki PAN.
  26. Roszko, D., & Roszko, R. (2009). Morphosyntactic Specifications for Polish and Lithuanian [Description of Morphosyntactic Markers for Polish and Lithuanian Nouns within MULTEXT-East Morphosyntactic Specifications (Version 3.0 May 10th, 2004)]. In V. Koseska-Toszewa, L. Dimitrova, R. Roszko (Eds.), Representing Semantics in Digital Lexicography. Innovative Solutions for Lexical Entry Content in Slavic Lexicography. MONDILEX Fourth Open Workshop. Warszawa, Poland, 29 June – 1 July, 2009. Proceedings (pp. 145–158). Warsaw: Institute of Slavic Studies, Polish Academy of Sciences.
  27. Roszko, D., & Roszko, R. (2012). Znachenija gipotetichnosti v litovskom, pol’skom jazykah i v litovskom govore okrestnostej Punska v Pol’she. Baltistica, 47 (1), 73–88 [in Ukrainian]. https://doi.org/10.15388/baltistica.47.1.2133
  28. Roszko, D., & Roszko, R. (2014). A Net Presentation of Lithuanian Sentences Containing Verbal Forms with the Grammatical Suffix -dav-, Cognitive Studies | Études cognitives, 14, 173–182. https://doi.org/10.11649/cs.2014.014
  29. Roszko, D., & Roszko, R. (2016a). Polsko-litewskie korpusy równoległe. Elementy anotacji semantycznej z zakresu modalności możliwościowej i kwantyfikacji zakresowej. In E. Gruszczyńska, A. Leńko-Szymańska (Eds.), Polskojęzyczne korpusy równoległe. Polish language Parallel Corpora (pp. 119–132). Warszawa. Retrieved from http://repozytorium.ceon.pl/bitstream/handle/123456789/9717/07_Roszko_Roszko.pdf?sequence=1&isAllowed=y, http://rownolegle.blog.ils.uw.edu.pl/files/2016/03/0000_Korpusy.pdf.
  30. Roszko, D., & Roszko, R. (2016b). Polish-Lithuanian Parallel Corpus. CLARIN-PL digital repository. Retrieved from http://hdl.handle.net/11321/309.
  31. Roszko, D., & Roszko, R. (2018a). Polsko-litewskie korpusy IS PAN i CLARIN-PL. In Prace bałtystyczne.
  32. Roszko, D., & Roszko, R. (2018b). Polish-Lithuanian Parallel Corpus “2”. CLARIN-PL digital repository. Retrieved from http://hdl.handle.net/11321/539.
  33. Roszko, D., Roszko, R., & Sosnowski, W. (2018). Polish-Bulgarian Corpora ISS PAS (IS PAN) and CLARIN-PL. Slavica Lodziensia, 2.
  34. Roszko, D., Roszko, R., Sosnowski, W., & Satoła-Staśkowiak, J. (2018). Polish-Bulgarian Parallel Corpus. CLARIN-PL digital repository. Retrieved from http://hdl.handle.net/11321/536.
  35. Roszko, R. (2004). Semantyczna kategoria określoności/nieokreśloności w języku litewskim (w zestawieniu z językiem polskim). Warszawa: Instytut Slawistyki PAN.
  36. Roszko, R. (2009). Description of Morphosyntactic Markers for Polish Verbs within MULTEXT-East Morphosyntactic Specifications (Version 3.0 May 10th, 2004). In V. Koseska-Toszewa, L. Dimitrova, R. Roszko (Eds.), Representing Semantics in Digital Lexicography. Innovative Solutions for Lexical Entry Content in Slavic Lexicography. MONDILEX Fourth Open Workshop. Warszawa, Poland, 29 June – 1 July, 2009. Proceedings (pp. 159–163). Warsaw: Institute of Slavic Studies, Polish Academy of Sciences.
  37. Roszko, R., Sosnowski, W., Duszkin, M., Roszko, D., & Tymoshuk, R. (2018). Polish-Russian Parallel Corpus. CLARIN-PL digital repository. Retrieved from http://hdl.handle.net/11321/534.
  38. Roszko, R., Tymoshuk, R., Duszkin, M., & Sosnowski, W. (2018). Polish-Ukrainian Parallel Corpus. CLARIN-PL digital repository. Retrieved from http://hdl.handle.net/11321/535.
  39. Satoła-Staśkowiak, J. (2010). From momentarity to perfective multiplicity. Different aspects of the aorist. Cognitive Studies/Études cognitives, 10, 127–132, https://doi.org/10.11649/cs.2010.007
  40. Sketch Engine. Retrieved from https://www.sketchengine.eu/.
  41. Sosnowski, W., & Tymoshuk, R. (2017a). Konfrontacja językowa polskich i ukraińskich jednostek frazeologicznych na przykładzie materiału z leksykonu aktywnej frazeologii polskiej i ukraińskiej. In D. Blagoeva, & L. Andreĭchin (Eds.), Bilgarsko-polski studii (pp. 91–108). Bŭlgarska akademiya na naukite institut za bŭlgarski ezik.
  42. Sosnowski, W., & Tymoshuk, R. (2017b). Novi pidkhody do stvorennya suchasnykh frazeolohichnykh slovnykiv (na materiali “Leksykona pol’s’koyi ta ukrayins’koyi aktyvnoyi frazeolohiyi”). Movoznavstvo, 2, 69–77 [in Ukrainian].
  43. Sosnowski, W., & Tymoshuk, R. (2017c). On “The dictionary of active Polish and Ukrainian phraseology”. Contrastive linguistics and culture. Cognitive Studies/ Études cognitives, 17. https://doi.org/10.11649/cs.1317
  44. Sosnowski, W., & Tymoshuk, R. (2017d). O rabote nad “Leksikonom pol’skoj i ukrainskoj aktivnoj frazeologii”. In L. Janovec, R. K. Brabcová, V. Skibina, Z. Wildová (Eds.), Svět v obrazech a ve frazeologii / World in Pictures and in Phraseology (pp. 269–276). Univerzita Karlova, Pedagogická fakulta [in Ukrainian].
  45. Sosnowski, W., Blagoeva, D., & Jaskot, M. (2019a). Kŭm vŭprosa za mezhduezikovata ekvivalentnost pri frazeologiyata (leksikografski aspekti). In Vanya Micheva, Diana Blagoeva, Sia Kolkovska, Tatyana Aleksandrova, Hristina Deykova (Eds.), International Annual Conference of the Institute for Bulgarian Language (pp. 76–82). Sofia: Instytut Języka Bułgarskiego BAN.
  46. Sosnowski, W., Blagoeva, D., & Jaskot, M. (2019b). A lexicographical approach to the contrastive analysis of Bulgarian and Polish phraseology. Cognitive Studies/ Études cognitives, 19, 1–17. https://doi.org/10.11649/cs.1923
  47. Sosnowski, W., Blagoeva, D., & Jaskot, M. (2019c). O koncepcji “Leksykonu aktywnej frazeologii bułgarskiej i polskiej”. Izvestiya na Instituta za bŭlgarski ezik ‘Prof. Lyubomir Andreĭchin‘, 32, 134–159.
  48. Sosnowski, W., Blagoeva, D., & Tymoshuk, R. (2018). New Bulgarian, Polish, and Ukrainian phraseology and language corpora. Cognitive Studies/Études cognitives, 18, 1–13. https://doi.org/10.11649/cs.1768
  49. Sosnowski. W. (2017). Od słowa do działania, czyli o nauczaniu słownictwa poprzez tekst. Języki Obce w Szkole, 3, 41–46.
  50. TaKIPI. Retrieved from http://nlp.pwr.wroc.pl/narzedzia-i-zasoby/narzedzia/takipi.
  51. Tiedemann, J. (2016). OPUS – parallel corpora for everyone. In Proceedings of the 19th annual conference of the European Association for Machine Translation (EAMT). Riga.
  52. Turska, M., & Kotsyba, N. (2006). Polsko-ukraiński korpus równoległy (PolUKR). Biuletyn Polskiego Towarzystwa Językoznawczego, 62, 83–92.
  53. Waldenfels, R. von, & Meyer, R. (2006). ParaSol, a Corpus of Slavic and Other Languages. Retrieved from parasol.unibe.ch.

##submission.downloads##

Як цитувати

Левчук, П., Рошко, Д., & Рошко, Р. (2020). Багатомовні корпуси Інституту славістики Польської академії наук – CLARIN-PL. Польсько-литовський паралельний корпус «2» та Польсько-український паралельний корпус. Мова: класичне - модерне - постмодерне, (6), 146–170. https://doi.org/10.18523/lcmp2522-9281.2020.6.146-170