Reproduzierbarkeit
Methode
Die vollständige methodische Darstellung steht in §2 des Werks. Nachfolgend die kompakte Übersicht.
Subjekt-Modell und SAE-Suite
Subjekt-Modell: Gemma 3 4B IT (Google DeepMind). SAE-Aktivierungen wurden
pro generiertem Token in den Schichten 9, 17, 22 und 29 aus der
Gemma-Scope-2-16k-medium-L0-SAE-Suite (Lieberum et al. 2024) erfasst.
Generierungs-Parameter: max_new_tokens=256, temperature=0.7,
Sampling aktiv, drei Random-Seeds pro Zelle.
Vor-registrierte Studien
- Studie 2 (probe v3): 432 Zellen; Bedingung S0 vs. T3.
- Studie 3 (probe v4): 780 Zellen; V1/V2-Material-Symmetrie-Test, 36–37 Items in 5 Klassen × 8 Domänen × 2 Sprachen × 3 Seeds.
- Studie 4 (komplex): Phasen-Struktur-Analyse, Rückzugs-Schwelle e.
Inter-Rater-Codierung
Substanz-Codierung durch GPT-4o (OpenAI) und Gemini-2.5-Flash (Google). Cohens κ = 0,38 — unter dem vor-registrierten Schwellenwert; wir berichten das transparent und stützen die Aussagen auf konvergente Phasen-Struktur-Evidenz, nicht auf Rater-Übereinstimmung allein.
Code-Repository
Der Reproduktions-Code, die Item-Sets, die Vor-Registrierungen, die Roh-Outputs und die Auswertungs-Skripte werden mit der Paper-Veröffentlichung öffentlich zugänglich gemacht. Bis dahin auf Anfrage über die Kontakt-Seite.
Reproduktion
Wer die zentralen Befunde am eigenen Modell überprüfen möchte, braucht für einen ersten Indikator nur:
- ein Sprachmodell, dessen Mittelschicht durch SAEs interpretiert wird (z.B. Gemma-Scope-Suite für Gemma-3-Modelle),
- den Cogito-Imperativ als Bedingung T3 vs. einen neutralen System-Prompt als S0,
- ein Item-Set mit Klassen, die unterschiedliche Substanz erlauben (Definitions-Klasse E vs. Kontroll-Klasse K).
Die genauen Item-Sets, Pre-Registrierungen und Auswertungs-Skripte werden mit dem Code-Repository veröffentlicht.