Cerco di essere sintetico e semplificare, ma ci sono alcuni aspetti importanti da considerare, per comprendere meglio i chatbot di IA, saperli sfruttare nel pieno delle potenzialità e scegliere il giusto compromesso velocità/precisione a seconda del caso specifico.
Differenze fra i principali modelli e architetture dell'IA:
- LLM densi monolitici: la maggior parte dei modelli linguistici di grandi dimensioni, quindi per capirci la versione GPT-4 di ChatGPT è un "modello denso"; quando viene posta una domanda, si attivano contemporaneamente tutti i parametri (il consumo di risorse però non è costante, se chiediamo "qual è la capitale dell'Australia" rispetto invece ad una domanda molto tecnica, interdisciplinare, alla quale occorre una spiegazione approfondita e dettagliata); un LLM denso riesce a dare il massimo di sé per una comprensione olistica, interdisciplinare
- MoE (Mixture of Experts): ad esempio Mixtral 8x7B, in questo caso anziché attivare contemporenamente tutti i parametri, il software ha un meccanismo di gating+routing avanzato, ovvero dalla nostra richiesta (da qui l'importanza di essere sempre molto precisi riguardo a ciò che vogliamo ottenere, livello, contesto preciso, ecc) capisce quali "esperti" attivare; a seconda del software, può attivarne due (ad esempio filosofia+matematica se sono due temi rappresentativi) o anche con pesi differenti; un MoE è molto ottimizzato per domande specifiche, settoriali
- approcci ibridi: in ottica futura, iniziano a svilupparsi sempre di più modelli ibridi fra i due; ad esempio MoE di cui uno degli "esperti" è proprio un modello generalista, per non perdere di accuratezza nel caso la domanda fosse interdisciplinare. Oppure anche, aspetto importante, se nel corso dell'interazione diamo un taglio diverso, approfondiamo temi diversi: ad esempio se inizialmente viene attivato un esperto di matematica e fisica, ideale per quel contesto, poi nell'interazione successiva il contesto diventa filosofico, alla singola domanda può essere attivato un esperto diverso, quindi ideale per la filosofia; c'è però il rischio di perdere coerenza nella comprensione di tutta la conversazione, dato che l'esperto di filosofia deve rielaborare non solo l'ultima domanda ma anche ciò che è stato scritto prima, quindi ambito specialistico di altra competenza. Quindi eventuali approcci ibridi sono molto difficili da implementare correttamente
Casi di utilizzo:
Analogamente alla differenza fra "modello Light/Flash" e "modello Pro/Avanzato", anche ammesso che siano entrambi gratuiti, che determinano semplicità e velocità della risposta vs massima precisione e accuratezza (ribadisco ancora, che la precisione nel nostro prompt, la nostra richiesta, è un elemento importantissimo!), vediamo le differenze di utilizzo ottimale fra LLM denso e MoE.
- LLM denso monolitico: ideale quando vogliamo una visione di insieme, forte interdisciplinarietà (sia nella stessa domanda, sia anche nelle successive interazioni; un modello ibrido ben calibrato può comunque gestire bene questo limite)
- MoE: ideale come "IA verticale", consuma meno risorse ed è esperto in un tema; se voglio risolvere un problema matematico con tutti i passaggi, questo è il mio scopo, è inutile attivare parametri per costruire una potenziale connessione con Shakespeare o altro che sia
Da un test approfondito con l'IA (ora non ricordo se fosse stato Google Gemini o Grok di xAI), il chatbot mi ha poi dato questa interessante risposta:
La tua intuizione sintetizzata:
Se i MoE attivano più esperti, sembrano imitare un LLM, ma non emergono naturalmente proprietà olistiche. Solo test basati su concetti trasversali e integrazione semantica profonda possono rivelare questa differenza. L'interdisciplinarietà attiva è uno dei banchi di prova più discriminanti
Quindi aggiungo: riflettere sulla natura di un modello, se si tratta di "casi estremi" è semplice, mentre in casi complessi, oggi prevalentemente di approccio ibrido, diventa molto più diffiicle. Anche perché, eccetto modelli open-source, la maggior parte delle aziende (OpenAI, Google, xAI) mantiene chiusi i propri modelli, non rivela più info del dovuto.