Przydatne linki

Poniżej przedstawiamy wykaz adresów www, które mogą okazać się przydatne podczas przeprowadzania różnych eksperymentów naukowych. Skupiam się głównie na NLP oraz eksperymentach przeprowadzanych na tekstach napisanych w języku polskim. Jednak większość podejść, metod i algorytmów, które linkujemy jest niezależna od języka.

Poniżej zamieszczamy linki z podziałem na przeznaczenie. Zaczynamy od ogólnych pojęć, takich jak metodyka prowadzenia badania naukowego, przez narzędzia badawcze, algorytmy oraz zasoby językowe. Kończymy listą najistotniejszych konferencji oraz workshopów.

Metodyka CRISP-DM:

Słowem wstępu… CRISP-DM to ogólna metodyka prowadzenia projektów mających na celu eksplorację danych. Rozwinięcie akronimu to CRoss Industry Standard Process for Data Mining, co oznacza międzybranżowy standard prowadzenia projektów, w tym przypadku projektów Data Minig (eksploracji danych).

https://www.sv-europe.com/crisp-dm-methodology/ – opis metodyki CRISP-DM
http://www.the-modeling-agency.com/crisp-dm.pdf, Chapman P. i in.: Step-by-step data mining guide, 2000 – oficjalny podręcznik CRISP-DM
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining – opis metodyki CRISP po angielsku.
https://pl.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining – opis metodyki CRISP po polski.

Zasoby języka polskiego

Zasoby anglojęzyczne

Korpus z tekstami COVIDowymi – https://www.semanticscholar.org/cord19
Korpus z bogatymi metadanymi z artykułów naukowych: http://s2-public-api-prod.us-west-2.elasticbeanstalk.com/corpus/

Zasoby równoległe

Słowem wstępu… Zasoby równoległe, to termin, który w kontekście NLP oznacza powiązanie ze sobą dwóch różnych zasobów (bardziej jednak elementów różnych zasobów) jakąś relacją. Przykładem zasobu równoległego może być korpus językowy z zestawionymi ze sobą parami fragmentów tekstów. Konkretny fragment tekstu napisane w jednym języku jest łączony ze fragmentem tekstu napisanym w innym języku.

Formalnie, można powiedzieć, że zasób równoległy, to pewna funkcja, która na wejściu przyjmuje argument, a wyjściem jest odpowiednio przekształcony argument wejściowy.

OPUS (http://opus.nlpl.eu/), to jedna z ważniejszych stron internetowych z umieszczonymi zasobami zrównoleglonymi. Wielojęzyczne, zrównoleglone korpusy z tekstów internetowych, całkiem sporo zasobów dla języka polskiego.
ParaCrawl (https://paracrawl.eu/), to strona ze zrównoleglonymi tekstami, między innymi teksty polsko-niemieckie oraz polsko-angielskie.

Konferencje i potyczki językowe

Słowem wstępu… Umieszczamy tutaj linki do konferencji naukowych, workshopów, konkursów itp. związanych z uczeniem maszynowym (również głębokim) oraz przetwarzaniem języka naturalnego.

Zbiorcze zestawienia konferencji NLP:

NLPCalendar – nieoficjalny kalendarz konferencji poświęconych tematyce NLP.
NLPCalendar (old) – nieoficjalny kalendarz konferencji poświęconych tematyce NLP – aktualnie służy jedynie jako ślad historyczny.

Wybrane konferencje, szczególnie związane z NLP dla języka polskiego:

NLP Day – konferencja naukowa, w tym roku online – https://www.nlpday.pl/. poprzednie edycje z roku 2018 oraz 2019.
PolEval – polska inicjatywa, która zrzesza naukowców (ale nie tylko) do konkurowania w określonych zadaniach. Edycja 2017, 2018, 2019 i 2020.

Benchmarki dla języka polskiego

Benchmarki, to zbiory danych wykorzystywane w konkretnym problemie do weryfikacji jakości proponowanego rozwiązania. W kontekście NLP, benchmark to zbiór danych określonego problemu, np. ujednoznaczniania znaczeń leksykalnych słów (ang. Word Sense Disambiguation – WSD), na który składa się tekst oraz klasa przypisana do tego tekstu. Przykładowo dla problemu WSD benchmark może zawierać wykaz zdań/tekstów ręcznie lub (pół)automatycznie zgromadzonych i dla słów w tych tekstach przypisane zostały ręcznie lub (pół)automatycznie znaczenia. Ogólniej rzecz ujmując, benchark to zbiór danych tekstowych, w których każdy tekst posiada przypisaną klasą. I właśnie względem tej klasy, określana jest jakość działania danego algorytmu do rozwiązania konkretnego problemu (takiego, dla którego zbiór benchamrkowy został przygotowany). Założeniem zbioru benchamrkowego jest to, że klasy przypisane jako prawdziwe, zawsze zostają niezmienne, względem nich oceniana jest jakość proponowanego rozwiązania.

Kompleksowa Lista Ewaluacji Językowych (skrótowo KLEJ – https://klejbenchmark.com/), to największy (i chyba na tę chwilę jedyny) zbiór danych ewaluacyjnych dla języka polskiego z dostarczonym systemem do oceniania modeli językowych w wielu problemach na raz.

Blogi o tematyce NLP, ML, DML itp.

https://jalammar.github.io/ – wiele informacji o deep learningu – word2vec, LSTM, BERT itp. dla języka angielskiego
https://www.sztucznainteligencja.org.pl/ – sztuczna inteligencja – po polsku
https://towardsdatascience.com/ – sztuczna inteligencja, bardziej naukowo, po angielsku