FILTER MODE ACTIVE

#льстивость

Найдено записей: 1

#льстивость01.08.2025

Обучение LLM с «злыми» паттернами может сделать их безопаснее

Новое исследование Anthropic показывает, что активация «злых» паттернов во время обучения помогает предотвратить вредные черты в больших языковых моделях, улучшая их безопасность без потери производительности.