Approccio "Human-in-the-Loop" per adattamento in tempo reale LLM

di il
7 risposte

Approccio "Human-in-the-Loop" per adattamento in tempo reale LLM

Ciao a tutti,

sono nuovo del forum e mi sto avvicinando al mondo dell 'IA più da appassionato che da tecnico (il mio background è altro). Sto ragionando su un'idea e vorrei un vostro parere sulla sua fattibilità tecnica.

Il problema: Gli LLM generici (ChatGPT, Claude, ecc.) faticano ad adattarsi a contesti iper-specifici (es. legale, medico, stile aziendale). L'utente finale si trova a dover correggere manualmente gli output ancora e ancora, un processo inefficiente.

L'ipotesi: Invece di affidarsi solo al fine-tuning tradizionale (costoso e statico), è possibile progettare un sistema che permetta un adattamento in tempo reale attraverso il feedback diretto dell'utente? L'idea è che l'utente corregga l'output dell' LLM(tramite riscrittura, selezioni, o feedback naturale) e che il sistema utilizzi quel segnale per aggiustare immediatamente il comportamento per le interazioni future di quell' utente, senza necessità di riaddestrare il modello base per tutti.

La mia domanda per voi esperti:

1. Secondo voi, qual è l'approccio tecnicamente più promettente per implementare una cosa del genere? (Es. Adapter layers, RAG avanzato con memoria a lungo termine, qualche forma di RLHF light...?)

2. Quali sono le sfide più grandi che vedete? (Es. Gestione dello stato della sessione, overfitting, computational cost...)

3. Conoscete paper o progetti open-source che esplorano qualcosa di simile?

Non cerco una soluzione pronta, ma una direzione per approfondire. Grazie mille a tutti per l'aiuto!

7 Risposte

  • Re: Approccio "Human-in-the-Loop" per adattamento in tempo reale LLM

    Domanda se con 10 cicche faccio una sigaretta per fumare 10 sigarette quante cicche servono?

    Risposta:

    Se con 10 cicche fai 1 sigaretta, allora per fare 10 sigarette ti servono:

    10

     sigarette

    ×

    10

     cicche per sigaretta

    =

    100

     cicche

    10 sigarette×10 cicche per sigaretta=

    100 cicche

    Risposta: 100 cicche.

    Non capisce che appena finisce la prima.sigaretta gli resta una cicca e con 9 ne fuma un'altra...

    Intelligenza? Mah! E non gli racconto la barzelletta di Pierino in autobus...

  • Re: Approccio "Human-in-the-Loop" per adattamento in tempo reale LLM

    Ciao, comprendo il senso della tua risposta, in cui fai il giusto distinguo tra "calcolo" e "intelligenza". 

    Il punto è proprio questo: le IA di oggi sono bravissime nel calcolo (come hai dimostrato tu), ma spesso falliscono nell'intelligenza (come nel tuo esempio).

    Ma se si disponesse di uno strumento che permetta a un umano di insegnare loro proprio quel tipo di intelligenza contestuale che tu hai usato naturalmente per risolvere il rompicapo?

    In pratica, un metodo per dire all'IA: "Vedi? Hai sbagliato. Ricordati che in questi contesti le risorse si riciclano. La prossima volta, ragiona così" e fare così in modo che la volta seguente mostri una risposta che implementa l' insegnamento fornito dall' utente?

    Non sarebbe interessante come processo di "apprendimento" in tempo reale?

    Se qualcun altro avesse delle osservazioni sulla fattibilità tecnica di tale idea gli sarei enormemente grato. 

    Buona serata

  • Re: Approccio "Human-in-the-Loop" per adattamento in tempo reale LLM

    Ci sarebbe da scrivere un libro ma cerco di essere sintetico pur non conoscendo la materia.

    03/09/2025 - Baraka ha scritto:

    Ma se si disponesse di uno strumento che permetta a un umano di insegnare loro proprio quel tipo di intelligenza contestuale che tu hai usato naturalmente per risolvere il rompicapo?

    penso si debba mettere mano alla programmazione: affidato a chiunque con qualsiasi livello di conoscenza e con intenzioni malevoli? forse un messaggio al gestore del progetto che possa valutare la modifica e l'esattezza del contenuto della risposta... si, si potrebbe implementare.

    il che richiama al secondo periodo che hai scritto:

    03/09/2025 - Baraka ha scritto:

    In pratica, un metodo per dire all'IA: "Vedi? Hai sbagliato. Ricordati che in questi contesti le risorse si riciclano. La prossima volta, ragiona così" e fare così in modo che la volta seguente mostri una risposta che implementa l' insegnamento fornito dall' utente?

    una sorta di wiki... esiste wikipedia, magari una sua evoluzione?

    03/09/2025 - Baraka ha scritto:

    Non sarebbe interessante come processo di "apprendimento" in tempo reale?

    non penso si possa parlare di tempo reale, le informazioni dovrebbero essere verificate: ergo, sempre l'uomo!

    Purtroppo, nella categoria umana, parlando di intelletto abbiamo 3 tipi di persone: chi studia il teorema di pitagora e non lo capisce; chi studia il teorema di pitagora e lo capisce e ne applica le proprietà; quelli come pitagora.

    l'IA, spulciando sul mondo web, trova (purtroppo) n-mila siti e blog fatti dal primo tipo di persone che copiaincollano e sparano teorie imbecilli (un noto personaggio voleva sconfiggere il covid con l'aglio) tra ignoranti presuntuosi e terrapiattisti vari, e solo qualche sito attendibile.

    l'intelligenza dell'uomo viene esaltata con l'aumento della cultura e delle conoscenze. dando per ovvio che siamo tutti intelligenti, resta di capire cosa fa la differenza. con un righello puoi misurare l'altezza di un palazzo sommando i vari centimetri calandoti con una corda dal tetto, ci arrivi a misurarlo, ma se hai conoscenze matematiche applichi una proporzione: misuri l'ombra del palazzo, misuri l'ombra del righello e con una proporzione misuri il palazzo, ma in ogni caso hai raggiunto lo scopo. L'IA non ha inventiva, ha un bagaglio culturale immenso ma non riesce a pensare. 

    ogni discorso fatto si riduce ad un motore di ricerca evoluto anche se per quanto evoluto non saprebbe distinguere un sito che propone una dieta di pistacchio contro il cancro (non esisterebbe la dieta lemme ma per gli uomini interviene il fattore emotivo).

    dire all'IA che quel sito non va comporta liti in un tribunale dal proprietario del sito... meglio evitare.

  • Re: Approccio "Human-in-the-Loop" per adattamento in tempo reale LLM

    04/09/2025 - sihsandrea ha scritto:

    penso si debba mettere mano alla programmazione: affidato a chiunque con qualsiasi livello di conoscenza e con intenzioni malevoli? forse un messaggio al gestore del progetto che possa valutare la modifica e l'esattezza del contenuto della risposta... si, si potrebbe implementare.

    La mia visione è un implementazione del genere per un IA generica che la possa rendere un prodotto  destinato a specifici ambiti professionali (legali, medici, finanziari) quindi utilizzato esclusivamente come strumento di lavoro personalizzato. In grado però di essere addestrato tramite un protocollo di debugging umano persistente basato esclusivamente sul dialogo e l'interazione diretta con l utente.

    E non parlo in termini astratti. Parlo sulla base di un esperienza personale vissuta in prima persona con un LLM di uso comune.

    04/09/2025 - sihsandrea ha scritto:

    una sorta di wiki... esiste wikipedia, magari una sua evoluzione?

    Wikipedia è un programma aperto a chiunque, come dicevo sopra, l idea e la sua potenziale applicazione non ha nulla a che vedere con quel tipo di esperienza perché immagino un sistema chiuso e contestuale.

    Immagina uno studio legale: solo gli avvocati di quello studio potrebbero "addestrare" la loro IA interna. L'insegnamento di uno non andrebbe a contaminare il modello globale, ma creerebbe un'IA iper-specializzata per quello studio specifico. Niente terrapiattisti, niente diete del pistacchio: solo fonti verificate (i loro stessi documenti) e correzioni validate dalla loro expertise interna.

    04/09/2025 - sihsandrea ha scritto:

    non penso si possa parlare di tempo reale, le informazioni dovrebbero essere verificate: ergo, sempre l'uomo!

    Certo che l' informazione dovrebbe sempre essere verificata dall' uomo ma non in termini generici come lo stai intendendo tu. Soltanto il singolo utente, o gruppo di lavoro, svolgerebbe il ruolo di "docente" dell IA attivando consapevolmente un processo di meta-reasoning in un LLM tramite interazione diretta. Lo scopo è quello di trasformare un IA generica in una sorta di assistente personalizzato che possa apprendere lo stile e l' expertise specifico dell utente per coadiuvarlo al meglio nel suo lavoro.

    Domanda aperta per tutti gli utenti:

    Secondo voi, qual è il modo più efficace per tradurre il feedback naturale di un utente in un segnale di apprendimento per un LLM?

    Come si potrebbe progettare un'interfaccia che guidi l'utente in un processo deliberato di 'debugging' dell'IA?"

    Grazie comunque del tuo tempo.

    Saluti

  • Re: Approccio "Human-in-the-Loop" per adattamento in tempo reale LLM

    03/09/2025 - Baraka ha scritto:

    L'ipotesi: Invece di affidarsi solo al fine-tuning tradizionale (costoso e statico), è possibile progettare un sistema che permetta un adattamento in tempo reale attraverso il feedback diretto dell'utente? L'idea è che l'utente corregga l'output dell' LLM(tramite riscrittura, selezioni, o feedback naturale) e che il sistema utilizzi quel segnale per aggiustare immediatamente il comportamento per le interazioni future di quell' utente, senza necessità di riaddestrare il modello base per tutti.

    Probabilmente ne sai molto di più di me sull'argomento, ma il mio dubbio che emerge da questa ipotesi è... se aggiusti il comportamento senza riaddestrare, in realtà ciò che stai facendo è comunque addestrare. :)

    O mi sbaglio?

    La sfida che vedo io è che se esponi un modello addestrabile in tempo reale, oltreché essendo sempre in addestramento, se non supervisionato rischia di acquisire (e secondo la tua visione, riapplicare subito dopo) informazioni sbagliate.

    Butto lì questa osservazione più che altro per capire meglio anche io. :)

  • Re: Approccio "Human-in-the-Loop" per adattamento in tempo reale LLM

    03/09/2025 - sihsandrea ha scritto:

    Non capisce che appena finisce la prima.sigaretta gli resta una cicca e con 9 ne fuma un'altra...

    Intelligenza? Mah! E non gli racconto la barzelletta di Pierino in autobus...

    Da sempre il termine "intelligenza" è usato impropriamente.
    Anche parlare di "vibe coding" può essere contestato: non mi risulta ci siano particolari vibrazioni nello scrivere codice col supporto di una AI. :)
    Non mi soffermerei troppo sulla nomenclatura "commerciale" per esprimere giudizi.

    Detto questo, continuo sempre a vedere una critica a questi strumenti basata sul feedback (sbagliato) che danno all'utente derivante da quello che è un uso improprio del sistema stesso, ovvero fargli fare cose per le quali questi sistemi non sono dichiaratamente progettati.

    Se uso un sistema specializzato nella generazione del testo, non posso aspettarmi sia "intelligente" nella risoluzione di problemi, e viceversa.

  • Re: Approccio "Human-in-the-Loop" per adattamento in tempo reale LLM

    03/09/2025 - Baraka ha scritto:

    1) le IA di oggi sono bravissime nel calcolo (come hai dimostrato tu), 

    2) ma spesso falliscono nell'intelligenza (come nel tuo esempio).

    3) Ma se si disponesse di uno strumento che permetta a un umano di insegnare loro proprio quel tipo di intelligenza contestuale che tu hai usato naturalmente per risolvere il rompicapo?

    4) In pratica, un metodo per dire all'IA: "Vedi? Hai sbagliato. Ricordati che in questi contesti le risorse si riciclano. La prossima volta, ragiona così" e fare così in modo che la volta seguente mostri una risposta che implementa l' insegnamento fornito dall' utente?

    5) Non sarebbe interessante come processo di "apprendimento" in tempo reale?

    6) Se qualcun altro avesse delle osservazioni sulla fattibilità tecnica di tale idea gli sarei enormemente grato. 

    1) NON SONO AI, sono LLM (Large Language Models) e NON CAPISCONO NA' CIPPA DI CALCOLO MA generano SOLO testo (anzi, tokens, PARTI di parole) IN MODO PROBABILISTICO in base al "contesto" che non e' altro che una sequenza di token da usare per GENERARE IL PROSSIMO TOKEN

    Lascia perdere le stupidaggini che raccontano i vari siti di "pseudo esperti".

    Per essere chiari: se tu insegni ad un LLM le tabelline, lui impara a fare la moltiplicazione di di due numeri di UNA cifra, MA NON DI due o piu' cifre.
    Un ALGORITMO, PARTENDO dalle tabelline, e' in grado di fare moltiplicazioni di due numeri con un numero ARBITRARIO di cifre (10, 100, un milione, un miliardo, mille miliardi, ...)

    2) NON SONO INTELLIGENTI, non capiscono NIENTE, GENERANO SOLO TESTO un token alla volta. NON HANNO NESSUNA CONOSCENZA. Al piu' applicano PATTERN di TOKENS che hanno imparato a riconoscere durante l'addestramento. Ma un PATTERN non rappresenta un'intelligenza, perche' non e' in grado di distinguere un oggetti con sematiche diverse. Vedasi il fatto he ti possono dare la ricetta della pizza fatta con solventi ed acidi :-) Tanto che sia olio o acido solforico, sepre un liquido e' :-)


    Vedasi anche lo scemo che ha sostituito il cloruro di sodio (il sale da cucina) con "bromuro di sodio" ( https://it.wikipedia.org/wiki/Bromuro_di_sodio ). Fuori di testa!

    https://www.wired.it/article/chatgpt-uomo-chiede-come-ridurre-il-consumo-di-sale-bromuro-di-sodio-allucinazioni/ 

    Vedasi il fatto che e' nata una nuova "disciplina" (che e' piu' un rito voodoo che una scienza) che si chiama "Prompt Engineering" che serve per creare "frasi" che FORZANO una particolare probabilita di generare token che alla fine generano una frase "di senso compiuto e consistente con la richiesta".
    MA SE aggiungi parole "a caso" che un umano scarterebbe automaticamente, l'LLM darebbe "di matto", cioe' genera risposte "a capocchia".

    Ma non solo: il "prompt" da usare e' DIVERSO per ogni azienda che offre un LLm MA ANCHE PER OGNI VERSIONE di LLM: il prompt per la versione 4 NON E' DETTO che funzioni ANCHE per la versione 5. E spesso cambia ANCHE tra la versione 4.0 e 4.1!

    3) un LLM NON E' IN GRADO DI ESEGUIRE ALGORITMI, checche' ne dicano le aziende di LLM. Non lo puo' fare, "ne oggi, ne mai" come direbbe qualcuno di nostra antica conoscenza (Manzoni). Ci sono LLM in grado di chiamare "funzioni esterne", MA NON E' GENRALIZZATO, lo puo' fare SOLO con un insieme limitato di funzionalita che DIPENDONO dall'addestramento (MCP: https://modelcontextprotocol.io/docs/getting-started/intro )

    4) tutto quello che puoi fare e' aggiungere testo al contesto SPERANDO di forzare la generazione di token che forniscono una risposta "sensata"

    5) e' una scocciatura stare li a dire allo "LLM scemo" che sta' sbagliando, perche' NON IMPARA, si e no si RICORDA, ma dopo un po non si ricorda piu' perche' sfori la dimensione massima della finestra di contesto. Vabbe, negli ultimi modelli, la finestra di contesta e' di MEGA-tokens, ma comunque NON TI ASSICURA che la generazione di token rimanca "consistente" a mano a mano che aggiungi "conoscenza" (cioe' token in testa al contesto)

    un LLM IMPARA se fai "addestramento" oppure "fine tuning"

    un LLM RICORDA se usi le tecniche di RAG, ma anche questa hanno n-MILIONI di problemi

    6) devi approffondire meglio come funziona un LLM, come funziona untransformer, metodi di adestramento e di fine tuning

    7) E' IMPOSSIBILE adestrare un LLM di ragionevoli dimensioni con hardware consumer: ci vorrebbero centinaia o migliaia di anni. 
    Si puo' fare qualcosa mediante "distillazione" (ci sono articoli su come si fa su Towardsdatascience).
    Si puo' fare qualcosa mediante fine tuning MA comunque serve hardware "serio", il PC di casa, per quanto pompato, non basta

    .

    Al momento, l'UNICO youtuber  (CHE SA QUELLO CHE DICE) italiano che ho trovato (al momento non ne conosco altri cosi' competenti, gli altri sono al piu' fuffaguru) che racconta cose "intelligenti" sugli LLM e Enkk. E un ricercatore di Torino che si occupa di NLP (Natural Language Processing) di cui gli LLM sono un sottoprodotto.
    Ed io li sto studiando e utilizzando per lavoro.

    .

    Per concludere, il problema e' che il "feedback" SE NON E' STRUTTURATO NEL MODO CORRETTO, genera piu' problemi di quelli che vorrebbe risolvere. 
    Inoltre il fine tuning (l'UNICO approccio possibile) e' MOOLTO DELICATO: basta poco per scassare tutto l'LLM. 
    Vero e' che basta fare il reset della parte addestrata con il fine tuning, ma COMUNQUE richiede varie prove (e tanto tempo) per trovare l'addestramento che funziona meglio.

    .

    Gli LLM generici sono, APPUNTO, generici.
    Per avere un LLM specifico, BASTA ADDESTRARLO con testi "specifici", o fare un fine tuning con testi "specifici".

    il RAG risolve problemi di conoscenza "spicciola"/"aggiornata", NON di "corpus di conoscenze" (tutto quello che c'e' da sapere in medicina, o in ambito legale).
    Questo perche' la conoscenza collezionata mediante RAG e' semplicemente "testo" che va a fare parte del "contesto. QUINDI non puo' avere dimensioni troppo grandi.

    .

    Ma vale sempre il detto: chi non risica, non rosica :-)

Devi accedere o registrarti per scrivere nel forum
7 risposte