Anthropic macht KI-Denken lesbar: Natural Language Autoencoders übersetzen Claudes interne Zustände
Anthropic hat einen neuen Forschungsansatz vorgestellt: sogenannte Natural Language Autoencoders, die darauf abzielen, die internen Repräsentationen und Zustände von Claude in menschlich lesbaren Text umzuwandeln. Das Team nutzt dabei direkten Zugriff auf die Key-Value-Matrix …