Zasoby dostępne na platformie huggingface:

  • zbiór danych do uczenia modeli wykorzystywanych w information retrieval/budowaniu embeddingów radlab/polish-sts-dataset
  • dane do pretrenowania/fine-tuningowania modeli z dominującym językiem prawnymm dostępne w formacie jsonl radlab/legal-mc4-pl
  • podobnie jak legal-mc4-pl dane do trenowania modeli, tym razem polska wikipedia radlab/wikipedia-pl
  • korpus politechniki wrocławskiej kgr10 dostępny jako tekstowy format jsonl, dane do pretreningu/fine-tuningu modeli: radlab/kgr10