Modele językowe

Na naszym huggingface udostępniamy szereg modeli:

Oparte o architekturę gpt:

pierwsza wersja modelu w architekturze small (proponujemy następnika wersję drugą): radlab/polish-gpt2-small
druga wersja modelu w architekturze small: radlab/polish-gpt2-small-v2
druga wersja modelu w architekturze medium (pierwsza wersja, ze względu na niską dokładność nie jest już dostępna publicznie): radlab/polish-gpt2-medium-v2

Modele GenAI:

radlab/pLLama3-8B-creator, model który podaje dość krótkie, konkretne odpowiedzi na zapytania użytkownika;
radlab/pLLama3-8B-chat – model, który jest wersją gadatliwą, odzwierciedlającą zachowanie oryginalnego modelu meta-llama/Meta-Llama-3-8B-Instruct.
radlab/pLLama3-70B – chyba największy do tej pory model pl?!
radlab/pLLama3.2-1B – model pLLama3.2 w architekturze 1B tylko po fine-tuningu
radlab/pLLama3.2-1B-DPO model pLLama3.2 1B po fine-tuningu oraz po DPO
radlab/pLLama3.2-3B – model pLLama3.2 w architekturze 3B tylko po fine-tuning
radlab/pLLama3.2-3B-DPO to model pLLama3.2 3B po ine-tuningu oraz po DPO

Modele encoderów:

bi-encoder do tekstów napisanych polskim językiem (proponujemy nowszą wersję tego modelu opisaną poniżej): radlab/polish-sts-v2
nowsza wersja bi-encodera, z dużo wyższą korelacją podczas uczenia z uśrednioną warstwą poolingu: radlab/polish-bi-encoder-mean
cross-encoder do rerankingowania: radlab/polish-cross-encoder

Modele do systemów odpowiadania na pytania:

model do ekstrakcyjnego odpowiadania na pytania z dowolnego tekstu: radlab/polish-qa-v2

Modele do przetwarzania tekstu:

model w architekturze t5-base do oczyszczania tekstu: radlab/polish-denoiser-t5-base

Inne modele, pochodne procesu uczenia:

tokenizator (fast tokenizer) uczony na dużym wolumenie (ok 30 Gb tekstu w języku polskim): radlab/polish-fast-tokenizer

W oparciu o modele wektorowe word2vec, opracowaliśmy listę podobieństwa semantycznego