Decensurare un LLM

Super Famoso

Iscritto da: apr, 2013

Messaggi:: 6160

10 ago 2025, 08:09

Tutti gli LLM sono addestrati per NON RISPONDERE a certe domande (come realezzare la droga, come realizzare una bomba, ecc). Cioe' sono "censurati" per soddisfare l' "allineamento" secondo certi "principi etici" che hanno senso per noi "umani", ma che non hanno minimamente senso per un LLM.

Esiste un modo per "decensurarli": si chiama "abliteration".

Ovviamente l'obbiettivo NON E' permettere loro di rispondere a domande "non lecite" (tanto, in tempo zero si trovano lo stesso, se uno ci si mette di impegno), MA rispondere a domane che per noi europei sono ASSOLUTAMENTE lecite, ma per gli "ammmericani bachettoni" sono considerate "da censurare" :-)

Su HuggingFace ci sono diversi modelli de-censurati ("abliterated") e qui ci sono alcuni link su come togliere togliere la censura:

Uncensor any LLM with abliteration
https://huggingface.co/blog/mlabonne/abliteration

https://github.com/FailSpy/abliterator
https://huggingface.co/failspy/llama-3-70B-Instruct-abliterated/blob/main/ortho_cookbook.ipynb
https://colab.research.google.com/drive/1a-aQvKC9avdZpdyBn4jgRQFObTPy1JZw?usp=sharing
https://github.com/mlabonne/llm-course

TransformerLens
https://transformerlensorg.github.io/TransformerLens/
https://github.com/TransformerLensOrg/TransformerLens

FailSpy
https://github.com/FailSpy/abliterator

Devi accedere o registrarti per scrivere nel forum

0 risposte