BridgeMind AI påstod att Anthropic Claude Opus 4.6 blivit försämrad i hemlighet efter ett nytt hallucinationstest. Inlägget har fått stark kritik för dålig metod.
Påståendet startade en stor debatt om AI-företag sänker kvaliteten på betalmodeller för att minska kostnader.
BridgeMind säger att hallucinationerna ökat med 98 %
BridgeMind, som ligger bakom BridgeBench kodtest, rapporterade att Claude Opus 4.6 hade gått från andra till tionde plats på deras hallucinationslista. Noggrannheten föll enligt uppgift från 83,3 % till 68,3 %.
“CLAUDE OPUS 4.6 ÄR FÖRSVAGAD. BridgeBench har just bevisat det. Förra veckan var Claude Opus 4.6 på plats 2 på hallucinationstestet med en noggrannhet på 83,3 %. Idag testades Claude Opus 4.6 igen och föll till plats 10 med bara 68,3 % noggrannhet,” skrev de här.
De presenterade detta som bevis på “sämre resonemang”. Men data visar något annat.
Kritiker menar att jämförelsen är felaktig
Dataspecialisten Paul Calcraft säger att påståendet är “väldigt Dålig Vetenskap” och pekar på ett stort metodproblem.
“Väldigt dålig vetenskap. Ni testade Opus på 30 uppgifter idag, förra resultatet gällde bara *6* uppgifter. Resultat för 6 gemensamma uppgifter: 85,4 % idag jämfört med 87,6 % tidigare. Förändringen kom mest av en *enda* fabricering utan upprepningar – enkelt förklarad av slumpen,” kommenterade Calcraft.
Det tidigare höga resultatet kom från bara sex tester. Den nya omtestningen hade 30 uppgifter.
På de sex gemensamma testerna var resultaten nästan lika – från 87,6 % till 85,4 %.
Den lilla skillnaden berodde mest på en extra felaktighet i en uppgift. Eftersom testen inte upprepades, är detta normalt inom AI-modellernas statistiska variation.
Stora språkmodeller är inte deterministiska, därför kan ett enstaka dåligt svar i ett litet urval påverka resultaten mycket.
Större frustrationer driver diskussionen
Inlägget väckte ändå starka känslor. Sedan februari 2026 har Claude Opus 4.6 fått många klagomål på sämre kvalitet.
Utvecklare rapporterar kortare svar, sämre instruktionsföljning och mindre djup i resonemang under hög belastning.
Vissa av förändringarna är medvetna. Anthropic har infört anpassningskontroller där modellen justerar sin arbetsinsats själv. Standard-läget är nu mellanläge för att välja effektivitet före maximal djup.
En oberoende analys av över 6 800 Claude Code-sessioner visade att resonemangsdjupet minskade ungefär 67 % i slutet av februari.
Modellens läskvot av filer innan kodändring sjönk från 6,6 till 2,0. Det tyder på att modellen försökte rätta kod utan att ha granskat den ordentligt.
Vad detta betyder för AI-användare
Detta visar på en växande konflikt inom AI-branschen. Företag optimerar modellerna för kostnad och skalbarhet efter lansering, men erfarna användare kräver jämn topp-prestanda. Skillnaden mellan dessa mål skadar förtroendet.
Bevisen idag visar inte att BridgeBench-data bevisar en medveten försämring. Jämförelsen är osäker och resultaten på de gemensamma testerna var nästan lika.
Men frustrationen är inte helt utan grund. Nya beräkningskontroller och tjänsteförändringar har påverkat hur Claude Opus 4.6 fungerar. För utvecklare som behöver stabila resultat, har det betydelse.
Anthropic har ännu inte kommenterat BridgeBench-påståendet offentligt, den 13 april.





