Państwo | |
---|---|
Data utworzenia |
2013 |
Siedziba |
Katedra Sztucznej Inteligencji, Politechnika Wrocławska |
Koordynator |
dr hab. inż. Maciej Piasecki[1] |
Adres | |
Politechnika Wrocławska, bud. D-21 Wybrzeże Wyspiańskiego 27 50-370 Wrocław[2] | |
Położenie na mapie Wrocławia | |
Położenie na mapie Polski | |
Położenie na mapie województwa dolnośląskiego | |
51°06′35,0″N 17°03′27,7″E/51,109722 17,057694 | |
Strona internetowa |
CLARIN-PL – powstałe w 2013 roku polskie konsorcjum naukowe należące do europejskiej infrastruktury badawczej CLARIN (ang. Common Language Resources and Technology Infrastructure, pol. Wspólne Zasoby Językowe i Infrastruktura Technologiczna)[1]. Jego celem jest tworzenie i udostępnianie cyfrowych zbiorów danych językowych i narzędzi cyfrowych do celów badawczych oraz dla potrzeb rozwoju przetwarzania języka naturalnego przez sztuczną inteligencję[3].
Instytucją koordynującą CLARIN-PL jest Politechnika Wrocławska. Do konsorcjum należą także Instytut Podstaw Informatyki PAN, Instytut Slawistyki PAN, Polsko-Japońska Akademia Technik Komputerowych, Uniwersytet Łódzki oraz Uniwersytet Wrocławski[4]. Podstawowym węzłem sieci CLARIN w Polsce (centrum typu B i K) jest finansowane przez Ministerstwo Edukacji i Nauki Centrum Technologii Językowych w Katedrze Sztucznej Inteligencji Wydziału Informatyki i Komunikacji Politechniki Wrocławskiej, w którym mieści się infrastruktura techniczna CLARIN-PL[3][5].
Zasoby
Do zasobów opracowanych w ramach CLARIN-PL należą m.in.[6]:
Korpus Dyskursu Parlamentarnego
Korpus Dyskursu Parlamentarnego to zbiór anotowanych lingwistycznie tekstów z posiedzeń plenarnych Sejmu i Senatu RP, interpelacji i zapytań poselskich oraz posiedzeń komisji od roku 1919 do chwili obecnej. Wszystkie anotacje lingwistyczne są dostępne na licencji CC-BY.
Korpus Języka Polskiego Politechniki Wrocławskiej
Korpus Języka Polskiego Politechniki Wrocławskiej (KPWr) to zbiór dokumentów tekstowych dostępnych na licencji Creative Commons (CC-BY-SA), opisanych różnymi typami informacji lingwistycznych. Próbki do korpusu pobrano z takich źródeł jak: Wikipedia, Wikinews, portale informacyjne z treściami na licencji Creative Commons, dzieła literackie z domeny publicznej lub udostępnione na otwartej licencji itd., a więc takich, które zapewniają legalne i darmowe wykorzystanie korpusu.
Korpusy równoległe
W ramach CLARIN-PL powstaje korpus równoległy tłumaczeń polsko-angielskich i angielsko-polskich Paralela, a także dwujęzyczne korpusy równoległe tekstów współczesnych: polsko-bułgarski, polsko-litewski, polsko-ukraiński, polsko-rosyjski.
Platforma Leksykalna
Platforma Leksykalna to otwarty system sieciowy, służący do przeszukiwania źródeł leksykograficznych, umożliwiający umożliwia dostęp do danych leksykograficznych o poszczególnych leksemach.
Słowosieć
Słowosieć to baza danych leksykalno-semantycznych języka polskiego typu wordnet. Zawiera zestawy synonimicznych jednostek leksykalnych (synsety) opisanych krótkimi definicjami. Służy jako słownik, w którym pojęcia (synsety) i poszczególne znaczenia wyrazów (jednostki leksykalne) zdefiniowane są poprzez miejsce w sieci wzajemnych relacji, odzwierciedlających system leksykalny polszczyzny. Słowosieć jest także wykorzystywana jako jeden z podstawowych zasobów do budowy programów przetwarzających język polski[7].
SpokesPL
SpokesPL to korpus współczesnej polszczyzny mówionej i związana z nim wyszukiwarka, umożliwiająca odsłuchiwanie fragmentów nagrań związanych z wyszukiwanymi lematami i związkami wyrazowymi.
Walenty
Walenty to słownik walencyjny predykatów języka polskiego. Słownik zawiera zależności walencyjne predykatów, przede wszystkim czasowników, występujących w języku polskim, czyli ograniczeń sposobu, w jaki poszczególne wyrazy wiążą się z wyrazami podrzędnymi[8].
Przypisy
- 1 2 Participating Consortia. clarin.eu. [dostęp 2023-01-13]. (ang.).
- ↑ About. clarin.biz. [dostęp 2023-01-13]. (pol.).
- 1 2 O nas. clarin-pl.eu. [dostęp 2023-01-13]. (pol.).
- ↑ Joanna Dzikowska: Nowa pracownia na Uniwersytecie Wrocławskim. Cyfrowi humaniści czekają na wasze domowe skarby. Gazeta Wyborcza, 2018-10-22. [dostęp 2023-01-16]. (pol.).
- ↑ Maksymilian Bielecki: Sztuczna inteligencja w wykrywaniu demencji (podcast). web.swps.pl, 2022-11-25. [dostęp 2023-01-13]. (pol.).
- ↑ Zasoby. clarin-pl.eu. [dostęp 2023-01-13]. (pol.).
- ↑ M. Piasecki , S. Szpakowicz , B. Broda , A Wordnet from the Ground Up, cejsh.icm.edu.pl, 2009 [dostęp 2023-01-25] [zarchiwizowane 2016-01-07] .
- ↑ A. Przepiórkowski, E. Hajnicz, A. Andrzejczuk, A. Patejuk, M. Woliński: Walenty: gruntowny składniowo-semantyczny słownik walencyjny języka polskiego. cejsh.icm.edu.pl, 2017. [dostęp 2023-01-25].
Linki zewnętrzne
- CLARIN-PL - oficjalna strona projektu
- CLARIN-PL-Biz - usługi CLARIN-PL dla biznesu
- CLARIN-PL w serwisie Facebook