Viral BridgeBench-inlägg påstår att Claude Opus 4,6 blev försämrad, kritiker kallar det dålig vetenskap

Skriven och redigerad av

Publicerad:13 april 2026, 13:13 UTC

Ett viralt X-inlägg påstod att Claude Opus 4,6-hallucinationer ökade med 98 %.
Kritiker såg att jämförelsen använde olika teststorlekar, inte lika riktmärken.
Samma uppgiftsanalys visar minimal förändring, inom normal AI-variation.

BridgeMind AI påstod att Anthropic Claude Opus 4.6 blivit försämrad i hemlighet efter ett nytt hallucinationstest. Inlägget har fått stark kritik för dålig metod.

Påståendet startade en stor debatt om AI-företag sänker kvaliteten på betalmodeller för att minska kostnader.

BridgeMind säger att hallucinationerna ökat med 98 %

BridgeMind, som ligger bakom BridgeBench kodtest, rapporterade att Claude Opus 4.6 hade gått från andra till tionde plats på deras hallucinationslista. Noggrannheten föll enligt uppgift från 83,3 % till 68,3 %.

“CLAUDE OPUS 4.6 ÄR FÖRSVAGAD. BridgeBench har just bevisat det. Förra veckan var Claude Opus 4.6 på plats 2 på hallucinationstestet med en noggrannhet på 83,3 %. Idag testades Claude Opus 4.6 igen och föll till plats 10 med bara 68,3 % noggrannhet,” skrev de här.

De presenterade detta som bevis på “sämre resonemang”. Men data visar något annat.

Kritiker menar att jämförelsen är felaktig

Dataspecialisten Paul Calcraft säger att påståendet är “väldigt Dålig Vetenskap” och pekar på ett stort metodproblem.

“Väldigt dålig vetenskap. Ni testade Opus på 30 uppgifter idag, förra resultatet gällde bara *6* uppgifter. Resultat för 6 gemensamma uppgifter: 85,4 % idag jämfört med 87,6 % tidigare. Förändringen kom mest av en *enda* fabricering utan upprepningar – enkelt förklarad av slumpen,” kommenterade Calcraft.

Det tidigare höga resultatet kom från bara sex tester. Den nya omtestningen hade 30 uppgifter.

På de sex gemensamma testerna var resultaten nästan lika – från 87,6 % till 85,4 %.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Den lilla skillnaden berodde mest på en extra felaktighet i en uppgift. Eftersom testen inte upprepades, är detta normalt inom AI-modellernas statistiska variation.

Stora språkmodeller är inte deterministiska, därför kan ett enstaka dåligt svar i ett litet urval påverka resultaten mycket.

Större frustrationer driver diskussionen

Inlägget väckte ändå starka känslor. Sedan februari 2026 har Claude Opus 4.6 fått många klagomål på sämre kvalitet.

Utvecklare rapporterar kortare svar, sämre instruktionsföljning och mindre djup i resonemang under hög belastning.

Vissa av förändringarna är medvetna. Anthropic har infört anpassningskontroller där modellen justerar sin arbetsinsats själv. Standard-läget är nu mellanläge för att välja effektivitet före maximal djup.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

En oberoende analys av över 6 800 Claude Code-sessioner visade att resonemangsdjupet minskade ungefär 67 % i slutet av februari.

Modellens läskvot av filer innan kodändring sjönk från 6,6 till 2,0. Det tyder på att modellen försökte rätta kod utan att ha granskat den ordentligt.

Vad detta betyder för AI-användare

Detta visar på en växande konflikt inom AI-branschen. Företag optimerar modellerna för kostnad och skalbarhet efter lansering, men erfarna användare kräver jämn topp-prestanda. Skillnaden mellan dessa mål skadar förtroendet.

Bevisen idag visar inte att BridgeBench-data bevisar en medveten försämring. Jämförelsen är osäker och resultaten på de gemensamma testerna var nästan lika.

Men frustrationen är inte helt utan grund. Nya beräkningskontroller och tjänsteförändringar har påverkat hur Claude Opus 4.6 fungerar. För utvecklare som behöver stabila resultat, har det betydelse.

Anthropic har ännu inte kommenterat BridgeBench-påståendet offentligt, den 13 april.