Ciao, grazie mille per la risposta.
Per rule-based intendevo proprio un agente iniziale costruito su regole euristiche tipo "gioca la carta più bassa se non puoi prendere", "usa la briscola solo se vale la pena", ecc. L’idea era di usarlo come baseline da confrontare con modelli RL. Per quanto riguarda la "memoria perfetta", intendevo la capacità del bot di ricordare tutte le carte giocate durante la partita, così da stimare meglio cosa potrebbe avere l’avversario.
Sul Monte Carlo hai ragione, nella forma classica non è un metodo di apprendimento, ma pensavo a una possibile integrazione alla AlphaZero, dove MCTS viene usato insieme a policy/value network per migliorare la decisione in fase di training o di gioco. Ma forse in un gioco come Briscola è eccessivo rispetto al beneficio...
Ti chiedo una cosa in più: se evitassi l’approccio rule-based iniziale, quale tipo di impostazione consiglieresti per partire? Ad esempio: partire da zero e apprendere via self-play? Usare imitazione supervisionata da partite umane?
Se hai suggerimenti su approcci alternativi li accetto volentieri!