Zasoby dostępne na platformie huggingface:
- zbiór danych do uczenia modeli wykorzystywanych w information retrieval/budowaniu embeddingów radlab/polish-sts-dataset
- dane do pretrenowania/fine-tuningowania modeli z dominującym językiem prawnymm dostępne w formacie jsonl radlab/legal-mc4-pl
- podobnie jak legal-mc4-pl dane do trenowania modeli, tym razem polska wikipedia radlab/wikipedia-pl
- korpus politechniki wrocławskiej kgr10 dostępny jako tekstowy format jsonl, dane do pretreningu/fine-tuningu modeli: radlab/kgr10