Quin model lliure (<12B) escriu millor en català?

Introducció

Cada setmana apareixen nous i millors models de llenguatge extens (LLM). Sovint estan entrenats en diferents llengües, però no sempre són capaços d’escriure correctament en català.

En aquest estudi es desitja auto-avaluar diferents models per esbrinar quin és el que escriu millor en català. Per fer-ho, s’han escollit diferents models lliures populars, com ara Llama3.1Gemma2, o Mixtral. A la vegada també s’han avaluat diferents variants de quantització per esbrinar en quin grau aquesta característica impacta la qualitat del text generat.

Addicionalment, el procés descrit a continuació s’ha adaptat i traduït al castella i a l’anglès per esbrinar si hi havia diferències significatives entre els tres idiomes.

L’interès d’aquesta prova rau en avaluar models que es puguin executar localment (en aquest cas mitjançant el programari lliure ollama). En el cas que ens ocupa, s’ha executat tot en una màquina que disposa d’una única tarja RTX 4090 amb 24GB de memòria VRAM.

Continua llegint

Com mostrar les línies no repetides en dos arxius

Objectiu:

Aquesta entrada mostra una comanda, o unió de comandes, Linux per tal de mostrar aquelles línies que no estan repetides en dos arxius. Això potser es pot aconseguir d’una altra manera però no he estat capaç de realitzar el mateix amb eines com diff o comm.

Procediment:

Suposem que disposem de dos arxius anomenats a1.txt i a2.txt. Cadascun d’aquests arxius mostra un contingut com el següent:

$ cat a1.txt
aaa
bbb
ccc
$ cat a2.txt
aaa
ddd
bbb

El resultat d’executar la comanda proposada retornarà el següent:

ccc
ddd

La comanda proposada és:

$ cat a1.txt a2.txt | sort | uniq -c | sort -nr | grep 1 | cut -d ' ' -f5 | sort
ccc
ddd

Fàcil, també, no? Lamentablement, no és perfecta del tot ja que la comanda grep 1 pot mostrar resultats no desitjats, però vaja…