Poniżej przedstawiam wykaz adresów www, które mogą okazać się przydatne podczas przeprowadzania różnych eksperymentów naukowych. Skupiam się głównie na NLP oraz eksperymentach przeprowadzanych na tekstach napisanych w języku polskim. Jednak większość podejść, metod i algorytmów, które linkuję jest niezależna od języka.

Poniżej zamieszczam linki z podziałem na przeznaczenie. Zaczynam od ogólnych pojęć, takich jak metodyka prowadzenia badania naukowego, przez narzędzia badawcze, algorytmy oraz zasoby językowe. Kończę listą najistotniejszych konferencji oraz workshopów.

Metodyka CRISP-DM:

Słowem wstępu… CRISP-DM to ogólna metodyka prowadzenia projektów mających na celu eksplorację danych. Rozwinięcie akronimu to CRoss Industry Standard Process for Data Mining, co oznacza międzybranżowy standard prowadzenia projektów, w tym przypadku projektów Data Minig (eksploracji danych).

Zasoby języka polskiego

Zasoby anglojęzyczne

Zasoby równoległe

Słowem wstępu… Zasoby równoległe, to termin, który w kontekście NLP oznacza powiązanie ze sobą dwóch różnych zasobów (bardziej jednak elementów różnych zasobów) jakąś relacją. Przykładem zasobu równoległego może być korpus językowy z zestawionymi ze sobą parami fragmentów tekstów. Konkretny fragment tekstu napisane w jednym języku jest łączony ze fragmentem tekstu napisanym w innym języku.

Formalnie, można powiedzieć, że zasób równoległy, to pewna funkcja, która na wejściu przyjmuje argument, a wyjściem jest odpowiednio przekształcony argument wejściowy.

  • OPUS (http://opus.nlpl.eu/), to jedna z ważniejszych stron internetowych z umieszczonymi zasobami zrównoleglonymi. Wielojęzyczne, zrównoleglone korpusy z tekstów internetowych, całkiem sporo zasobów dla języka polskiego.
  • ParaCrawl (https://paracrawl.eu/), to strona ze zrównoleglonymi tekstami, między innymi teksty polsko-niemieckie oraz polsko-angielskie.

Konferencje i potyczki językowe

Słowem wstępu… Umieszczam tutaj linki do konferencji naukowych, workshopów, konkursów itp. związanych z uczeniem maszynowym (również głębokim) oraz przetwarzaniem języka naturalnego.

Zbiorcze zestawienia konferencji NLP:

  • NLPCalendar – nieoficjalny kalendarz konferencji poświęconych tematyce NLP.
  • NLPCalendar (old) – nieoficjalny kalendarz konferencji poświęconych tematyce NLP – aktualnie służy jedynie jako ślad historyczny.

Wybrane konferencje, szczególnie związane z NLP dla języka polskiego:

Benchmarki dla języka polskiego

Benchmarki, to zbiory danych wykorzystywane w konkretnym problemie do weryfikacji jakości proponowanego rozwiązania. W kontekście NLP, benchmark to zbiór danych określonego problemu, np. ujednoznaczniania znaczeń leksykalnych słów (ang. Word Sense Disambiguation WSD), na który składa się tekst oraz klasa przypisana do tego tekstu. Przykładowo dla problemu WSD benchmark może zawierać wykaz zdań/tekstów ręcznie lub (pół)automatycznie zgromadzonych i dla słów w tych tekstach przypisane zostały ręcznie lub (pół)automatycznie znaczenia. Ogólniej rzecz ujmując, benchark to zbiór danych tekstowych, w których każdy tekst posiada przypisaną klasą. I właśnie względem tej klasy, określana jest jakość działania danego algorytmu do rozwiązania konkretnego problemu (takiego, dla którego zbiór benchamrkowy został przygotowany). Założeniem zbioru benchamrkowego jest to, że klasy przypisane jako prawdziwe, zawsze zostają niezmienne, względem nich oceniana jest jakość proponowanego rozwiązania.

  • Kompleksowa Lista Ewaluacji Językowych (skrótowo KLEJhttps://klejbenchmark.com/), to największy (i chyba na tę chwilę jedyny) zbiór danych ewaluacyjnych dla języka polskiego z dostarczonym systemem do oceniania modeli językowych w wielu problemach na raz.

Blogi o tematyce NLP, ML, DML itp.