LMSYS - Chatbot Arena: commenti e considerazioni

Giulio_M

Ho scoperto di recente LMSYS Chatbot Arena, che in particolare offre due servizi interessanti:

LMSYS Chatbot Arena Leaderboard: ranking per uso generale ("overall"), che vede ad esempio ChatGPT-4o-latest (2024-08-08) in prima posizione, seguito da Gemini-1.5-Pro-Exp-0801, ecc; è possibile selezionare poi varie categorie e quindi mostra una classifica per quella specifica categoria, ad esempio "Math" ha in prima posizione Claude 3.5 Sonnet mentre ChatGPT-4o-latest (2024-08-08) in seconda; "Coding" ha sempre in prima posizione ChatGPT-4o-latest (2024-08-08), "French" _ ha in prima posizione Gemini App (2024-01-24); quindi è molto importante riconoscere che per un compito specifico un LLM (Large Language Model ovvero ciò che sta alla base di un software tipo chatbot) può essere più abile un determinato modello, rispetto ad un uso generale in cui ad oggi ChatGPT-4o-latest (2024-08-08) ha la meglio
LMSYS Chatbot Arena (Multimodal): Benchmarking LLMs and VLMs in the Wild: qui possiamo fornire in input un testo e vengono proposte due risposte, "Model A" e "Model B" (che vengono scelti dal sistema in modo random); poi ci viene chiesto quale delle due ci sembra essere la migliore, o pareggio; per non influenzare il voto, solo dopo aver votato vediamo quali erano i due modelli; quindi la nostra eventuale valutazione può aiutare a definire meglio il benchmark complessivo

È interessante per due ragioni, sia per farsi un'idea generale, sia anche per testare contemporaneamente due modelli, quindi se non abbiamo esigenza di un chatbot specifico magari continuando su un'unica conversazione, in questo modo possiamo confrontare in modo immediato due risposte di due modelli differenti e la cosa può essere molto utile sia per completezza generale, sia affidabilità nella risposta (controllo incrociato, se entrambe le risposte sono analoghe, è più probabile che sia corretto).

benchmark-LLM-lmsys-leaderboard

Cosa ne pensate? Ne eravate a conoscenza? Vi piace? 🙂

✠Sieg Heil✠

gemini sopra mistral non si può vedere, tutto fake

Giulio_M

✠Sieg Heil✠ ovviamente, anche io simpatizzo più per Mistral AI - Intelligenza Artificiale Europea. Diciamo che Gemini ha performance diverse a seconda che sia in versione gratuita o uno dei piani a pagamento. Poi la classifica deriva comunque dai voti degli utenti (ci può stare ma è soggettivo, implica anche es. come si presentano le risposte a livello di impaginazione, layout, organizzazione delle informazioni... Molto generico quindi), mentre altre classificazioni più oggettive prendono dei set predefiniti es. una lista di tot problemi di matematica ecc, e quello è.

Francis

Giulio_M provi Claude AI se non l'ha già fatto

Bobi

ms copilot non risponde alla domanda se adolf hitler e' morto o fuggito

Francis

Bobi copilot non risponde a quasi nulla perché è troppo censurato

Giulio_M

Francis molto valido, certo (soprattutto l'ultimo Claude 3.5 Sonnet), per questioni di regolamentazione (differenza fra la regolamentazione USA ed Europea), l'azienda Anthropic ha deciso che non si può accedere con IP europei, vale a dire che per usarlo dobbiamo ad esempio usare una VPN. Lo ha deciso in via preventiva, per evitare problemi già accaduti in passato ad altri (Il garante della Privacy blocca ChatGPT, di fine marzo 2023).
Per praticità di solito mi trovo più comodo ad usare gli altri (ChatGPT, Google Gemini, Mistral AI), con accesso diretto tramite account Google, senza VPN o altre soluzioni.
Francis confermo anche questo, Microsoft ha deciso di adottare una linea abbastanza restrittiva e, in passato, ne parlavo qui: Image AI: Bing Image Creator vs Nightcafe Creator (Bing blocca alcuni prompt, mentre NightCafe Creator, così come Midjourney, Adobe Firefly ecc, non hanno bloccato).

Francis

Giulio_M provi di nuovo https://www.midjourney.com/ ora è gratis . Funziona direttamente sul sito e non su discord, però ha un limite di 25 immagini

Francis

Francis @Giulio_M provi anche ideogram, ai per generare immagini gratuita e funzionale

Giulio_M

Francis grazie, lo proverò sicuro! Oggi con 1000 servizi di 1000 aziende diverse, la scelta è vastissima e ogni volta si scopre qualcosa di nuovo.

Edit.
Ideogram (Image AI): test e recensione