"Wszystkie języki są równe, ale polski jest najrówniejszy"
Grupka uczonych z Uniwersytetu Maryland i Microsoftu napisała w swoim abstrakcie tak:
Przedstawiamy OneRuler1, wielojęzyczny test porównawczy zaprojektowany do oceny modeli języka długiego kontekstu w 26 językach. OneRuler adaptuje test porównawczy Ruler wyłącznie dla języka angielskiego (Hsieh i in., 2024), uwzględniając siedem zadań syntetycznych, które testują zarówno wyszukiwanie, jak i agregację, w tym nowe warianty zadania „igły w stogu siana”, dopuszczające możliwość nieistnienia igły. Tworzymy OneRuler w dwuetapowym procesie, najpierw pisząc instrukcje w języku angielskim dla każdego zadania, a następnie współpracując z native speakerami w celu przetłumaczenia ich na 25 dodatkowych języków. Eksperymenty z otwartymi i zamkniętymi modelami LLM ujawniają rosnącą różnicę w wydajności między językami o niskim i wysokim zasobie zasobów, wraz ze wzrostem długości kontekstu z 8 tys. do 128 tys. tokenów. Co zaskakujące, język angielski nie jest językiem o najwyższej wydajności w zadaniach długiego kontekstu (zajmując 6. miejsce na 26), a na szczycie listy wyłania się język polski. Nasze eksperymenty pokazują również, że wiele programów LLM (szczególnie o3-mini-high firmy OpenAI) niepoprawnie przewiduje brak odpowiedzi, nawet w językach o dużych zasobach.
Być może mamy najlepszą na Świecie Wikipedię i stąd ten wynik?

Brak komentarzy:
Prześlij komentarz
Uwaga: tylko uczestnik tego bloga może przesyłać komentarze.