Zasoby tekstowe

Zasoby dostępne na platformie huggingface:

zbiór danych do uczenia modeli wykorzystywanych w information retrieval/budowaniu embeddingów radlab/polish-sts-dataset;
dane do pretrenowania/fine-tuningowania modeli z dominującym językiem prawnymm dostępne w formacie jsonl radlab/legal-mc4-pl;
podobnie jak legal-mc4-pl dane do trenowania modeli, tym razem polska wikipedia radlab/wikipedia-pl;
korpus politechniki wrocławskiej kgr10 dostępny jako tekstowy format jsonl, dane do pretreningu/fine-tuningu modeli: radlab/kgr10;