Decensurare un LLM

di il
0 risposte

Decensurare un LLM

Tutti gli LLM sono addestrati per NON RISPONDERE a certe domande (come realezzare la droga, come realizzare una bomba, ecc). Cioe' sono "censurati" per soddisfare l' "allineamento" secondo certi "principi etici" che hanno senso per noi "umani", ma che non hanno minimamente senso per un LLM.

Esiste un modo per "decensurarli": si chiama "abliteration".

Ovviamente l'obbiettivo NON E' permettere loro di rispondere a domande "non lecite" (tanto, in tempo zero si trovano lo stesso, se uno ci si mette di impegno), MA rispondere a domane che per noi europei sono ASSOLUTAMENTE lecite, ma per gli "ammmericani bachettoni" sono considerate "da censurare" :-)

Su HuggingFace ci sono diversi modelli de-censurati ("abliterated") e qui ci sono alcuni link su come togliere togliere la censura:


Uncensor any LLM with abliteration
   https://huggingface.co/blog/mlabonne/abliteration
   
   https://github.com/FailSpy/abliterator
   https://huggingface.co/failspy/llama-3-70B-Instruct-abliterated/blob/main/ortho_cookbook.ipynb
   https://colab.research.google.com/drive/1a-aQvKC9avdZpdyBn4jgRQFObTPy1JZw?usp=sharing
   https://github.com/mlabonne/llm-course


TransformerLens
   https://transformerlensorg.github.io/TransformerLens/
   https://github.com/TransformerLensOrg/TransformerLens


FailSpy
   https://github.com/FailSpy/abliterator

Devi accedere o registrarti per scrivere nel forum
0 risposte