Χάκερς παρακάμπτουν τα OpenAI Guardrails με απλή έγχυση prompt
Το νέο πλαίσιο Guardrails της OpenAI, σχεδιασμένο να ενισχύει την ασφάλεια της τεχνητής νοημοσύνης, παρακάμφθηκε γρήγορα από ερευνητές χρησιμοποιώντας τεχνικές έγχυσης prompt. Ειδικοί της HiddenLayer έδειξαν ότι οι επιτιθέμενοι μπορούν να εκμεταλλευτούν τόσο το μοντέλο παραγωγής περιεχομένου όσο και τον αξιολογητή ασφαλείας του. Αυτό υπογραμμίζει τις δυσκολίες στην προστασία των συστημάτων τεχνητής νοημοσύνης, καθώς τα LLM είναι ευάλωτα σε πανομοιότυπες χειραγωγήσεις.
