Poniżej przedstawiam wykaz adresów www, które mogą okazać się przydatne podczas przeprowadzania różnych eksperymentów naukowych. Skupiam się głównie na NLP oraz eksperymentach przeprowadzanych na tekstach napisanych w języku polskim. Jednak większość podejść, metod i algorytmów, które linkuję jest niezależna od języka.
Poniżej zamieszczam linki z podziałem na przeznaczenie. Zaczynam od ogólnych pojęć, takich jak metodyka prowadzenia badania naukowego, przez narzędzia badawcze, algorytmy oraz zasoby językowe. Kończę listą najistotniejszych konferencji oraz workshopów.
Metodyka CRISP-DM:
Słowem wstępu… CRISP-DM to ogólna metodyka prowadzenia projektów mających na celu eksplorację danych. Rozwinięcie akronimu to CRoss Industry Standard Process for Data Mining, co oznacza międzybranżowy standard prowadzenia projektów, w tym przypadku projektów Data Minig (eksploracji danych).
- https://www.sv-europe.com/crisp-dm-methodology/ – opis metodyki CRISP-DM
- http://www.the-modeling-agency.com/crisp-dm.pdf, Chapman P. i in.: Step-by-step data mining guide, 2000 – oficjalny podręcznik CRISP-DM
- https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining – opis metodyki CRISP po angielsku.
- https://pl.wikipedia.org/wiki/Cross_Industry_Standard_Process_for_Data_Mining – opis metodyki CRISP po polski.
Zasoby języka polskiego
- https://wolnelektury.pl/katalog/e
- https://www.elrc-share.eu (tu dla pl)
- https://wortschatz.uni-leipzig.de/
- https://dumps.wikimedia.org/plwiki/
Zasoby anglojęzyczne
- Korpus z tekstami COVIDowymi – https://www.semanticscholar.org/cord19
- Korpus z bogatymi metadanymi z artykułów naukowych: http://s2-public-api-prod.us-west-2.elasticbeanstalk.com/corpus/
Zasoby równoległe
Słowem wstępu… Zasoby równoległe, to termin, który w kontekście NLP oznacza powiązanie ze sobą dwóch różnych zasobów (bardziej jednak elementów różnych zasobów) jakąś relacją. Przykładem zasobu równoległego może być korpus językowy z zestawionymi ze sobą parami fragmentów tekstów. Konkretny fragment tekstu napisane w jednym języku jest łączony ze fragmentem tekstu napisanym w innym języku.
Formalnie, można powiedzieć, że zasób równoległy, to pewna funkcja, która na wejściu przyjmuje argument, a wyjściem jest odpowiednio przekształcony argument wejściowy.
- OPUS (http://opus.nlpl.eu/), to jedna z ważniejszych stron internetowych z umieszczonymi zasobami zrównoleglonymi. Wielojęzyczne, zrównoleglone korpusy z tekstów internetowych, całkiem sporo zasobów dla języka polskiego.
- ParaCrawl (https://paracrawl.eu/), to strona ze zrównoleglonymi tekstami, między innymi teksty polsko-niemieckie oraz polsko-angielskie.
Konferencje i potyczki językowe
Słowem wstępu… Umieszczam tutaj linki do konferencji naukowych, workshopów, konkursów itp. związanych z uczeniem maszynowym (również głębokim) oraz przetwarzaniem języka naturalnego.
Zbiorcze zestawienia konferencji NLP:
- NLPCalendar – nieoficjalny kalendarz konferencji poświęconych tematyce NLP.
- NLPCalendar (old) – nieoficjalny kalendarz konferencji poświęconych tematyce NLP – aktualnie służy jedynie jako ślad historyczny.
Wybrane konferencje, szczególnie związane z NLP dla języka polskiego:
- NLP Day – konferencja naukowa, w tym roku online – https://www.nlpday.pl/. poprzednie edycje z roku 2018 oraz 2019.
- PolEval – polska inicjatywa, która zrzesza naukowców (ale nie tylko) do konkurowania w określonych zadaniach. Edycja 2017, 2018, 2019 i 2020.
Benchmarki dla języka polskiego
Benchmarki, to zbiory danych wykorzystywane w konkretnym problemie do weryfikacji jakości proponowanego rozwiązania. W kontekście NLP, benchmark to zbiór danych określonego problemu, np. ujednoznaczniania znaczeń leksykalnych słów (ang. Word Sense Disambiguation – WSD), na który składa się tekst oraz klasa przypisana do tego tekstu. Przykładowo dla problemu WSD benchmark może zawierać wykaz zdań/tekstów ręcznie lub (pół)automatycznie zgromadzonych i dla słów w tych tekstach przypisane zostały ręcznie lub (pół)automatycznie znaczenia. Ogólniej rzecz ujmując, benchark to zbiór danych tekstowych, w których każdy tekst posiada przypisaną klasą. I właśnie względem tej klasy, określana jest jakość działania danego algorytmu do rozwiązania konkretnego problemu (takiego, dla którego zbiór benchamrkowy został przygotowany). Założeniem zbioru benchamrkowego jest to, że klasy przypisane jako prawdziwe, zawsze zostają niezmienne, względem nich oceniana jest jakość proponowanego rozwiązania.
- Kompleksowa Lista Ewaluacji Językowych (skrótowo KLEJ – https://klejbenchmark.com/), to największy (i chyba na tę chwilę jedyny) zbiór danych ewaluacyjnych dla języka polskiego z dostarczonym systemem do oceniania modeli językowych w wielu problemach na raz.
Blogi o tematyce NLP, ML, DML itp.
- https://jalammar.github.io/ – wiele informacji o deep learningu – word2vec, LSTM, BERT itp. dla języka angielskiego
- https://www.sztucznainteligencja.org.pl/ – sztuczna inteligencja – po polsku
- https://towardsdatascience.com/ – sztuczna inteligencja, bardziej naukowo, po angielsku