P-värden och ”justerade p-värden”

Som statistiker skulle det vara tjänstefel att inte ta tillfället i akt att reda ut en del statistiska begrepp nu när jag har chansen. Med förhoppningen att jag inte förvirrar, missleder eller tråkar ut er så ska jag försöka öka förståelsen för p-värdet och det som populärt kallas för justerade p-värden. För att göra det hela enklare så kommer jag att fuska lite och inte säga hela sanningen.

Innan vi sätter igång skulle jag vilja lätta upp stämningen med följande morbida historia, med ett för mig okänt ursprung.

The Statistician and the Biologist

They are both being executed, and are each granted one last request.

The Statistician asks that he be allowed to give one last lecture on his Grand Theory of Statistics.

The Biologist asks that he be executed first.

 

P-värdet är det där magiska lilla värdet som gör oss lyckliga om det är mindre än 0.05 och olyckliga om så inte är fallet.

För varje statistiskt test har vi alltid en nollhypotes och en mothypotes, där mothypotesen är det vi vill visa, t.ex. att det finns en behandlingsskillnad mellan läkemedel A och B. Nollhypotesen är vårt ankare och är alltid formulerad i termer av att det inte finns en skillnad.

Förenklat kan man säga att p-värdet är sannolikheten för att felaktigt påstå att mothypotesen är sann. Vi tror på mothypotesen om p-värdet är mindre än 5 % eller någon annan risknivå (signifikansnivå) som vi finner acceptabel.

När jag undervisar brukar jag tala om något jag kallar statistikens tre lagar som är följande:

  1. Det går inte att bevisa att nollhypotesen är sann.
  2. Om vi har få observationer så kommer det vara svårt att bevisa mothypotesen även om mothypotesen är sann.
  3. Om vi har väldigt många observationer kommer vi att kunna bevisa mothypotesen även om nollhypotesen ”nästan är sann” och skillnaden är ”försumbar”.

Det första vi måste förstå är att p-värdet är en sannolikhet som beror av antalet observationer. Om vi vill avgöra om det finns en ”intressant skillnad” så räcker det inte att titta på p-värdet, vi måste även titta på skillnaden och antalet observationer.

Vi kan göra två fel; felaktigt säga att det finns en skillnad (falskt positiv) eller att felaktigt inte påstå att det finns en skillnad (falskt negativ). Ju lägre signifikansnivå desto lägre risk för falska positiva och desto högre risk för falska negativa resultat. Det finns alltså en trade-off mellan de olika felen, vi kan inte få allt.

Nu till det intressanta: det finns en växande oro att många resultat inom empirisk forskning inte är reproducerbara. Till ganska stor del kan detta nog förklaras av ett felaktigt användande av våra p-värden. Utan att bli allt för tekniskt ska jag försöka återge essensen i följande lättillgängliga artikel ”Why Most Published Research Findings Are False” av John P. A. Ioannidis, publicerad i PLOS Medicine 2005.

För att göra en lång historia kort, p-värden fungerar fint om vi gör några få test, men inte alls om vi gör många test. Det är egentligen inte p-värdena i sig som är problemet utan att vår 5 % risknivå måste justeras då vi gör många test. Om vi testar 1000 hypoteser där det finns en sann skillnad för endast 10 % av de testade hypoteserna så kommer mer än 31 % av våra upptäckter att vara falska positiva resultat, dvs 31 % av våra resultat kommer att vara rent nonsens! Det egentliga problemet är inte antalet test utan andelen hypoteser där det finns en sann skillnad, som vi kan benämna q. Om q är litet så blir andelen falska resultat bland våra upptäckter (vi kallar denna andel för False Discovery Rate (FDR)) stort som vi ser i figur 1.

Figur 1

Att 31 % av våra publicerade resultat förväntas vara nonsens är i regel inte acceptabelt, så något måste vi göra. Om vi justerar risknivån till en lägre nivå kan vi minska andelen falskt positiva resultat.  Priset för detta är naturligtvis att vi missar en del sanna skillnader. Återigen, vi kan inte få allt.

Det finns en allt större medvetenhet om att vi måste justera risknivån, men också en okunskap om hur vi ska göra det. Om ni inte använder er av statistik i er forskning så kan ni sluta att läsa nu, det blir inte roligare.

Det största problemet här är att vi envisas med att kontrollera risken att få minst ett falskt positivt resultat (känd som family wise error rate (FWER)) istället för att kontrollera andelen falska positiva resultat, d.v.s. FDR. Den vanligaste metoden för att kontrollera FWER är att använda sig av Bonferronis korrigering. Det finns två problem med denna korrigering (och med all annan FWER-korrigering): den är extremt konservativ (leder till många falska negativ resultat) och det är svårt, och framför allt oklart, hur vi ska bestämma antalet hypoteser som vi har testat. Av någon outgrundlig anledning accepterar tidskrifter ofta att Bonferronis korrigering görs tabellvis och att signifikansnivån för hypoteser som endast presenteras i text inte alls korrigeras. Vilka resultat som blir signifikanta kommer alltså att bero på hur vi presenterar resultaten, vilket är direkt dumt! Genom att övergå till justeringar som kontrollerar FDR-nivå slipper vi denna problematik och underlättar för läsaren att värdera resultaten.

Om det vår någon som undrade hur vi kom fram till siffran 31 % så kommer svaret här. Om vi gör N =1000 oberoende test, q=10 %, signifikansnivån a= 5 % och sannolikheten för att påvisa en sann skillnad (testens styrka) är b = 100 % så följer att

FDR = (1-q)a/((1-q)a+qb) = 0.9*0.05/(0.9*0.05+0.1*1) = 31%.

Om vi tillåter att testens styrka är minde än 1 (vilket naturligtvis är realistiskt) så får vi att FDR > 31 %.

För att sammanfatta; p-värdet är ett användbart litet värde som har få konkurrenter, men som måste förstås för vad det är och behandlas med varsamhet.

0 Kommentarer

Lämna en kommentar

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *