Tutti gli LLM sono addestrati per NON RISPONDERE a certe domande (come realezzare la droga, come realizzare una bomba, ecc). Cioe' sono "censurati" per soddisfare l' "allineamento" secondo certi "principi etici" che hanno senso per noi "umani", ma che non hanno minimamente senso per un LLM.
Esiste un modo per "decensurarli": si chiama "abliteration".
Ovviamente l'obbiettivo NON E' permettere loro di rispondere a domande "non lecite" (tanto, in tempo zero si trovano lo stesso, se uno ci si mette di impegno), MA rispondere a domane che per noi europei sono ASSOLUTAMENTE lecite, ma per gli "ammmericani bachettoni" sono considerate "da censurare" :-)
Su HuggingFace ci sono diversi modelli de-censurati ("abliterated") e qui ci sono alcuni link su come togliere togliere la censura:
Uncensor any LLM with abliteration
https://huggingface.co/blog/mlabonne/abliteration
https://github.com/FailSpy/abliterator
https://huggingface.co/failspy/llama-3-70B-Instruct-abliterated/blob/main/ortho_cookbook.ipynb
https://colab.research.google.com/drive/1a-aQvKC9avdZpdyBn4jgRQFObTPy1JZw?usp=sharing
https://github.com/mlabonne/llm-course
TransformerLens
https://transformerlensorg.github.io/TransformerLens/
https://github.com/TransformerLensOrg/TransformerLens
FailSpy
https://github.com/FailSpy/abliterator