Gennemse
konfidensintervaller og p-værdier
for at underholde en diskussion af statistiske analyse, er det vigtigt først at forstå begrebet befolkning statistik. Det er klart, at befolkningsstatistikker er værdierne for enhver foranstaltning inden for befolkningen af interesse, og estimering af dem er målet for de fleste undersøgelser ., For eksempel, i en undersøgelse ser på fedme satser for patienter på en bestemt medicin, befolkningen statistik kunne være den gennemsnitlige fedme sats for alle patienter på medicin.
identifikation af denne værdi ville dog kræve at have data for hvert enkelt individ, der falder ind under denne kategori, hvilket er upraktisk. I stedet kan der indsamles en randomiseret prøve, hvorfra prøvestatistikker kan opnås. Disse prøvestatistikker tjener som skøn over den tilsvarende befolkningsstatistik og giver en forsker mulighed for at drage konklusioner om en befolkning af interesse.,
Der er en betydelig begrænsning i, at disse konstruerede prøver skal være repræsentative for den større population af interesse. Mens der er mange skridt, der kan tages for at reducere denne begrænsning, går dens virkninger (såkaldt prøveudtagningsforspænding ) undertiden ud over forskerens kontrol. Derudover, selv i en teoretisk situation uden prøveudtagning bias, randomisering kan resultere i en forkert repræsentativ prøve. I det foregående eksempel antag, at populationsraten for fedme blandt alle voksne, der var berettiget til medicinen, var 25%., I en simpel tilfældig prøve på 30 patienter fra denne population er der en 19.7% chance for, at mindst 10 patienter vil være overvægtige, hvilket resulterer i en prøve fedme på 33.3% eller endnu højere. Selv om der ikke er nogen sammenhæng mellem medicin og fedme satser, er det stadig muligt at støde på en sats, der synes at være forskellig fra den samlede fedme sats, der opstod gennem tilfældighed i prøveudtagning alene. Denne effekt er årsagen til rapportering af konfidensintervaller og p-værdier i klinisk forskning.
konfidensintervaller er intervaller, hvor populationsstatistikken kan ligge., De er konstrueret ud fra prøvestatistikken og visse funktioner i prøven, der måler, hvor sandsynligt det er at være repræsentativt og rapporteres til en bestemt tærskel . Et 95% konfidensinterval er et interval, der er konstrueret således, at 95% af de tilfældige prøver i gennemsnit vil indeholde den sande populationsstatistik inden for deres 95% konfidensinterval. Således tages en tærskel for signifikante resultater ofte som 95% med den forståelse, at alle værdier inden for det rapporterede interval er lige gyldige som den mulige befolkningsstatistik.,
p-værdien rapporterer lignende oplysninger på en anden måde. I stedet for at konstruere et interval omkring en prøvestatistik, en p-værdi rapporterer sandsynligheden for, at prøvestatistikken blev produceret ved tilfældig prøveudtagning af en befolkning, givet et sæt antagelser om befolkningen, benævnt “nulhypotesen” ., Ved at tage eksemplet undersøgelse af fedme satser igen, fedme blandt prøven (en prøve af patienter på medicinen) kunne rapporteres sammen med en p-værdi, der bestemmer chancen for, at en sådan sats kunne fremstilles ved tilfældigt prøveudtagning af den samlede population af patienter, der er berettiget til medicinen. I tilfælde af undersøgelsen er nulhypotesen, at populationsraten for fedme blandt patienter på medicinen er lig med den samlede fedme blandt alle patienter, der er berettiget til medicinen, det vil sige 25%., En one-tailed p-værdi kan anvendes, hvis der er grund til at tro, at en effekt, der vil forekomme i kun én retning (for eksempel, kan der være grund til at tro, medicin vil øge vægtøgning men ikke falde det), der henviser til, at en to-halet p-værdi, der skal bruges i alle andre tilfælde. Ved anvendelse af en symmetrisk fordeling, såsom den normale fordeling, to-tailed p-værdier er simpelthen dobbelt den en-tailed p-værdi.
Antag igen, at en prøve på 30 patienter på medicinen indeholder 12 overvægtige personer. Med en en-tailed test er vores p-værdi 0,0216 (ved hjælp af Binomialfordelingen)., Således kan vi sige, at vores observerede sats på 40% er signifikant forskellig fra den hypotetiske sats på 25% på et signifikansniveau på 0,05. I en anden forstand er 95% konfidensintervallet for den observerede andel 25, 6% til 61, 07%. Konfidensintervaller svarer til to-tailed tests, hvor en to-tailed test afvises, hvis og kun hvis konfidensintervallet ikke indeholder værdien forbundet med nulhypotesen (i dette tilfælde 25%).
hvis en beregnet p-værdi er lille, er det sandsynligt, at befolkningen ikke er struktureret som oprindeligt angivet i nulhypotesen., Hvis vi opnår en lav p-værdi, har vi bevis for, at der var en vis effekt eller årsag til den observerede forskel – medicinen, i dette tilfælde. Der anvendes typisk en tærskel på 0,05 (eller 5%), hvor en p-værdi skal være under denne tærskel for, at den tilsvarende attribut er statistisk signifikant.
risikoforhold
risiko, et andet udtryk for sandsynlighed, er et andet grundlæggende princip i statistisk analyse. Sandsynlighed er en sammenligning af at observere en bestemt begivenhed, der forekommer som et resultat, med de samlede unikke resultater., En møntflip er et trivielt eksempel: risikoen for at observere et hoved er or eller 50%, som for alle mulige unikke forsøg (en flip, der resulterer i hoveder eller en flip, der resulterer i haler), kun en er begivenheden af interesse (hoveder).brug af kun risiko tillader forudsigelser om en enkelt population. For eksempel, ser på fedme satser inden for den amerikanske befolkning, rapporterede CDC, at 42.4% af voksne var overvægtige i 2017-2018. Så risikoen for, at en person i USA er overvægtig, er omkring 42.4% . De fleste undersøgelser ser imidlertid på effekten af en bestemt intervention eller anden genstand (såsom dødelighed) på en anden., Tidligere antog vi, at fedmehastigheden for støtteberettigede patienter var 25%, men her vil vi bruge de 42.4%, der er forbundet med den amerikanske voksne befolkning. Antag, at vi også observerer en risiko på 25% i en tilfældig prøve af patienter på medicinen. For at konceptualisere effekten af medicinen på fedme, ville et logisk næste skridt være at dividere risikoen for fedme i den amerikanske befolkning på medicinen med risikoen for fedme i den amerikanske befolkning, hvilket resulterer i et risikoforhold på 0.590.,
denne beregning – et forhold på to risici – er, hvad der menes med den eponymous risk ratio (RR) statistik, også kendt som relativ risiko. Det giver mulighed for et bestemt antal, der skal gives for, hvor meget mere risiko en person i en kategori bærer i forhold til en person i en anden kategori. I eksemplet bærer en person, der tager medicinen, 0,59 gange så stor risiko som en voksen fra den generelle amerikanske befolkning., Vi har dog antaget, at befolkningen, der er berettiget til medicinen, havde en fedme på 25% – måske er det kun en gruppe unge voksne, der i gennemsnit kan være sundere, der er berettiget til at tage medicinen. Når man undersøger effekten af medicinen på fedme, er dette den andel, der skal bruges som nulhypotesen. Hvis vi observerer en fedme sats på medicin på 40%, med en p-værdi mindre end signifikans-niveau på 0,05, er dette bevis for, at medicinen øger risikoen for fedme (med en RR, i dette scenario, af 1.6)., Som sådan er det vigtigt at omhyggeligt vælge nullhypotesen for at lave relevante statistiske forudsigelser.
med RR betyder et resultat af 1, at begge grupper har den samme mængde risiko, mens resultater, der ikke er lig med 1, indikerer, at en gruppe havde mere risiko end en anden, en risiko, der antages at skyldes den intervention, der blev undersøgt af undersøgelsen (formelt, antagelsen om kausal retning).
for at illustrere ser vi på resultaterne af en undersøgelse fra 2009 offentliggjort i Journal of Stroke and Cerebrovaskular Diseases., Undersøgelsen rapporterer, at patienter med en længere elektrokardiografiske QTc-interval var mere tilbøjelige til at dø inden for 90 dage sammenlignet med patienter uden en længere interval (relativ risiko =2.5; 95% konfidens interval på 1,5-4.1) . Med et konfidensinterval på mellem 1,5 og 4.1 for den risiko ratio indikerer, at patienter med en forlænget QTc-interval var 1,5-4.1 gange mere tilbøjelige til at dø i 90 dage end dem uden en forlænget QTc-interval.,
Et andet eksempel – i et vartegn papir viser, at blodtrykket kurven i akut iskæmisk slagtilfælde er U-formet snarere end J-formet , efterforskere fandt, at RR steget næsten to gange, og patienter med middel-arterielt blodtryk (MAP) >140 mmHg eller <100 mmHg (RR=1.8, 95% CI 1.1-2.9, p=0.027). At have en CI på 1.1-2.9 for RR betyder, at patienter med et kort uden for området 100-140 mmHg var 1, 1-2, 9 gange mere tilbøjelige til at dø end dem, der havde indledende kort inden for dette interval.,
For et andet eksempel, en 2018 undersøgelse af Australske flåde rekrutter konstateret, at personer med præfabrikerede ortoser (en type af mund-støtte) havde en 20.3% risiko for at lide af mindst én negativ effekt, mens dem, der ikke havde en risiko på 12,4% . Et risikoforhold her er givet ved 0.203 / 0.124 eller 1.63, hvilket antyder, at rekrutter med fodortoser har 1.63 gange risikoen for at have en vis negativ konsekvens (f.eks.) end dem uden. Men den samme undersøgelse rapporterer et 95% konfidensinterval for den risiko ratio på 0,96 at 2.76, med en p-værdi 0.068., Når man ser på konfidensintervallet, inkluderer det rapporterede 95% – interval (den almindeligt accepterede standard) værdier under 1, 1 og værdier over 1. Husk, at alle værdier er lige så sandsynlige at være befolkningsstatistikken, med 95% tillid, er der ingen måde at udelukke muligheden for, at fodortoser ikke har nogen virkning, har en betydelig fordel eller har en betydelig skade. Derudover er p-værdien større end standarden på 0,05, derfor giver disse data ikke signifikant bevis for fodortoser, der har nogen konsekvent virkning på bivirkninger som blærer og smerter., Som tidligere nævnt er dette ikke tilfældigt – hvis de beregnes ved hjælp af de samme eller lignende metoder, og p-værdien er to-tailed, vil konfidensintervaller og p-værdier rapportere de samme resultater.
når de anvendes korrekt, er risikoforhold en kraftig statistik, der tillader et skøn i en population af ændringen i risiko en population bærer over en anden., De er ret nemme at forstå (værdien er, hvor mange gange risikoen en gruppe bærer over en anden), og med antagelsen om kausal retning viser hurtigt, om en intervention (eller anden testet variabel) har indflydelse på resultaterne.
Der er dog begrænsninger. For det første kan RRs ikke anvendes i alle tilfælde. Da risikoen i en stikprøve er et skøn over risikoen i en population, skal stikprøven være rimeligt repræsentativ for befolkningen. Som sådan, case-control undersøgelser, ved simpel kraft af det faktum, at forholdet mellem resultater kontrolleres, kan ikke have en risiko ratio rapporteret., For det andet, som med alle de statistikker, der diskuteres heri, er RR en relativ foranstaltning, der giver information om risikoen i en gruppe i forhold til en anden. Problemet her er, at en undersøgelse, hvor to grupper havde en risiko på 0,2% og 0,1% bærer den samme RR, 2, som en, hvor to grupper havde en risiko på 90% og 45%. Selv om det i begge tilfælde er rigtigt, at de med interventionen var dobbelt så stor som risikoen, svarer dette til kun 0,1% mere risiko i et tilfælde, mens 45% mere risiko i et andet tilfælde., Således overdriver kun rapportering af RR effekten i første omgang, mens potentielt endda minimerer effekten (eller i det mindste dekontekstualiserer den) i anden instans.
Odds ratio
mens risiko rapporterer antallet af begivenheder af interesse i forhold til det samlede antal forsøg, rapporterer odds antallet af begivenheder af interesse i forhold til antallet af begivenheder, der ikke er af interesse. Angivet forskelligt, det rapporterer antallet af begivenheder til nonevents., Mens risikoen, som tidligere bestemt, for at vende en mønt til at være hoveder er 1: 2 eller 50%, er oddsene for at vende en mønt til at være hoveder 1: 1, da der er et ønsket resultat (begivenhed) og et uønsket resultat (nonevent) (Figur 1).
Lige som med RR, hvor forholdet mellem to risici, der blev taget for to separate grupper, forholdet mellem to odds kan tages for to separate grupper til at producere en odds ratio (OR)., I stedet for at rapportere, hvor mange gange risikoen en gruppe bærer i forhold til den anden, rapporterer den, hvor mange gange oddsene den ene gruppe bærer til den anden.
for de fleste er dette en vanskeligere statistik at forstå. Risiko er ofte et mere intuitivt koncept end odds, og derfor foretrækkes forståelse af relative risici ofte frem for forståelse af relative odds. Men eller lider ikke af de samme kausale antagelsesbegrænsninger som RR, hvilket gør det mere bredt anvendeligt.,for eksempel er odds et symmetrisk mål, hvilket betyder, at mens risiko kun undersøger resultater, der er givet interventioner, kan odds også undersøge interventioner, der er givet resultater. Således kan en undersøgelse konstrueres, hvor man i stedet for at vælge forsøgsgrupper og måle resultater kan vælge resultater, og andre faktorer kan analyseres. Følgende er et eksempel på en case-control-undersøgelse, en situation, hvor RR ikke kan bruges, men eller kan.
en 2019 case-control undersøgelse viser et godt eksempel., Søger at finde potentielle sammenhæng mellem hepatitis A virus (HAV) infektion fremtrædende i Canada og nogle forårsager faktor, en undersøgelse, der blev bygget baseret på resultatet (med andre ord, personer blev kategoriseret baseret på deres HAV status, som “intervention”, eller kausale begivenhed, var ukendt). Undersøgelsen kiggede på dem med HAV og dem uden og hvilke fødevarer de havde spist før HAV infektion . Fra dette, flere odds nøgletal blev konstrueret sammenligne en bestemt fødevare til HAV status., For eksempel viste dataene, at blandt de personer, der havde eksponering for rejer/rejer, var otte positive for HAV, mens syv ikke var, mens for dem uden eksponering to var positive for HAV, mens 29 ikke var. En odds ratio er taget af (8:7)/(2:29) hvilket svarer til ca. 16,6. Undersøgelsesdataene rapporterede et eller af 15.75, med den lille uoverensstemmelse, der sandsynligvis stammer fra eventuelle forudberegningsjusteringer for forvirrende variabler, som ikke blev diskuteret i papiret. En p-værdi på 0,01 blev rapporteret, hvilket gav statistisk bevis for dette eller var signifikant.,
dette kan fortolkes på to lige måder. For det første er oddsene for eksponering for rejer/rejer for dem med HAV 15,75 gange højere end for dem uden. Tilsvarende er oddsene for HAV-posiitve versus HAV-negative 15,75 gange højere for dem, der udsættes for rejer/rejer end for dem, der ikke udsættes.
samlet set, eller giver et mål for styrken af association mellem to variabler på en skala fra 1 er ingen association, over 1 er en positiv association, og under 1 er en negativ association., Mens de to foregående fortolkninger er korrekte, er de ikke så direkte forståelige som en RR ville have været, havde det været muligt at bestemme en. En alternativ fortolkning er, at der er en stærk positiv sammenhæng mellem eksponering for rejer/rejer og HAV.
på grund af dette er det i nogle specifikke tilfælde hensigtsmæssigt at tilnærme RR med OR. I sådanne tilfælde skal den sjældne sygdomsantagelse holde. Det vil sige, at en sygdom skal være meget sjælden inden for en befolkning., I dette tilfælde nærmer risikoen for sygdommen inden for befolkningen (p/(p+q)) oddsene for sygdommen inden for befolkningen (p/)), da p bliver ubetydeligt lille i forhold til.. således konvergerer RR og eller når befolkningen bliver større. Men hvis denne antagelse mislykkes, bliver forskellen stadig mere overdrevet. Matematisk øger faldende p I p+trials-forsøg q for at opretholde de samme samlede forsøg. Med risiko ændres kun tælleren, mens med odds ændres både tælleren og nævneren i modsatte retninger., Som følge heraf vil or I tilfælde, hvor RR og eller begge er under 1, undervurdere RR, mens for tilfælde, hvor begge er over 1, vil or overvurdere RR.
forkert rapportering af eller som RR kan derfor ofte overdrive data. Det er vigtigt at huske, at eller er en relativ foranstaltning ligesom RR, og dermed nogle gange en stor eller kan svare til en lille forskel mellem odds.
for den mest trofaste rapportering, eller bør ikke præsenteres som en RR, og bør kun præsenteres som en tilnærmelse af RR, hvis den sjældne sygdomsantagelse med rimelighed kan holde., Hvis det er muligt, skal en RR altid rapporteres.
Ha .ard ratio
både RR og eller vedrører interventioner og resultater og rapporterer således over en hel studieperiode. En lignende, men særskilt foranstaltning, ha .ard ratio (HR), vedrører dog ændringshastigheder (tabel 1).
tabel 1
RR | ELLER | TIME | |
Mål | Afgøre forholdet i risiko status, der er baseret på en variabel. | Bestem sammenhæng mellem to variabler. | Bestem, hvordan en gruppe ændres i forhold til en anden., |
Fortæller os, hvordan en intervention ændringer risici. | fortæller os, om der er en sammenhæng mellem en intervention og risiko; estimerer, hvordan denne forening gælder. | fortæller os, hvordan en intervention ændrer hastigheden for at opleve en begivenhed. | |
Begrænsninger | Kun anvendelse, hvis den undersøgelse, der er repræsentativ for befolkningen. Kan ikke bruges på case-control undersøgelser., | kan generelt anvendes overalt, men ikke altid en nyttig statistik selv. Overdriver risici. | For typisk at være nyttig, bør ændringshastigheden inden for to grupper være relativt konsistent. |
Tidslinje | for Statisk elektricitet, skal ikke overveje priser. Opsummerer en samlet undersøgelse. | statisk – overvejer ikke satser. Opsummerer en samlet undersøgelse. | baseret på satser., Giver information om, hvordan en undersøgelse skrider frem over tid. |
Timer er i tandem med efterladte kurver, der viser den tidsmæssige udvikling af nogle omstændigheder inden for en gruppe, uanset om den pågældende begivenhed er død, eller at pådrage sig en sygdom. I en overlevelseskurve svarer den lodrette akse til begivenheden af interesse, og den vandrette akse svarer til tiden. Faren for begivenheden svarer derefter til grafens hældning eller begivenhederne pr.
et fareforhold er simpelthen en sammenligning af to farer., Det kan vise, hvor hurtigt to survivorship kurver afviger gennem sammenligning af skråningerne af kurverne. En HR på 1 indikerer ingen divergens – inden for begge kurver var sandsynligheden for begivenheden lige så sandsynlig på ethvert givet tidspunkt. En HR, der ikke er lig med 1, indikerer, at to hændelser ikke forekommer med samme hastighed, og risikoen for et individ i en gruppe er anderledes end risikoen for et individ i en anden på et givet tidsinterval.
en vigtig antagelse, at HRs gør, er den proportionale satser antagelse., For at rapportere et entydigt ha .ard ratio må det antages, at de to Ha .ard rates er konstante. Hvis grafens hældning skal ændres, vil forholdet ligeledes ændre sig over tid og vil således ikke gælde som en sammenligning af sandsynlighed på et givet tidspunkt.
overvej forsøget med et nyt kemoterapeutisk middel, der søger at forlænge forventet levetid for patienter med en specifik kræft. I både interventionen og kontrolgruppen var 25% døde i uge 40., Da begge grupper faldt fra 100% overlevelse til 75% overlevelse i løbet af 40-ugers perioden, ville farehastighederne være ens og dermed farehastigheden lig med 1. Dette tyder på, at en person, der modtager stoffet, er lige så sandsynligt at dø som en, der ikke modtager stoffet på noget tidspunkt.
det er dog muligt, at i interventionsgruppen døde alle 25% mellem uge seks til 10, mens for kontrolgruppen døde alle 25% inden for uge en til seks. I dette tilfælde ville sammenligning af medianer vise en højere forventet levealder for dem, der er på stoffet, på trods af at HR ikke viser nogen forskel., I dette tilfælde fejler proportional fareantagelsen, da farehastighederne ændrer sig (ganske dramatisk) over tid. I sådanne tilfælde er HR Ikke relevant.
da det undertiden er vanskeligt at afgøre, om antagelsen om proportional fare med rimelighed finder anvendelse, og fordi det at tage en HR fjerner tidsenhedens oprindelige måling (farehastigheder), er det almindelig praksis at rapportere HR i forbindelse med mediantider.,
I en undersøgelse for at vurdere den prognostiske udførelsen af Den Hurtige Akut Medicin Score (REMS) og Worthing Fysiologiske Pointsystem (WPSS), efterforskerne fandt, at risikoen for 30-dages dødelighed blev øget med 30% for hver ekstra REMS enhed (HR: 1.28; 95% konfidensinterval (CI): 1.23-1.34) og 60% for hver ekstra WPSS enhed (HR: 1.6; 95% CI: 1.5-1.7). I dette tilfælde ændrede dødsfrekvensen ikke, men snarere scoringssystemet til at forudsige det gjorde, så HR kan bruges. Med et konfidensinterval på mellem 1,5 og 1.,7 for hazardspss ha .ards ratio indikerer, at dødelighedskurven for dem med en højere hazardsps falder hurtigere (om 1,5-1,7 gange). Da den lave ende af intervallet stadig er over 1, er vi overbeviste om, at den sande Dødsfare inden for 30 dage er højere for gruppen med højere WPS .
i en 2018-undersøgelse af overstadig drikke blandt personer med visse risikofaktorer blev der konstrueret en overlevelseskurve, der udformede hastigheden for at opnå overstadig drikke til kontrol, dem med familiehistorie, mandlig køn, dem med høj impulsivitet og dem med et højere respons på alkohol., For mænd og dem med en familie historie, statistisk signifikant bevis for en højere sats for at opnå binge drinking) blev rapporteret (en HR på 1,74 for mænd og 1.04 for dem med en familie historie) . Men for dem med høj impulsivitet, selvom HR var 1,17, varierede 95% konfidensintervallet fra 1,00 til 1,37. Således til et 95% konfidensniveau er det umuligt at udelukke, at HR var 1,00.,
på grund af den nuværende overdrivelse er det vigtigt at undgå at repræsentere ORs som RRs, og det er ligeledes vigtigt at erkende, at en rapporteret eller sjældent giver en god tilnærmelse af relative risici, men snarere blot giver et mål for korrelation.
på Grund af sin evne til at lave endelige konklusioner, og forståelighed, RR, bør indberettes, hvis det er muligt, men i de tilfælde, hvor dens kausalitet antagelse er overtrådt (såsom case-control undersøgelser og logistisk regression), ELLER kan bruges.,
timer anvendes med overlevelseskurver og antager, at farehastighederne er ens over tid. Selvom det er nyttigt at sammenligne to satser, skal de rapporteres med mediantider for at retfærdiggøre antagelsen om proportional fare.
endelig, uanset værdien af HR/RR / eller statistik, bør en fortolkning kun foretages efter at have fastslået, om resultatet giver statistisk signifikant bevis mod en konklusion (som bestemt af p-værdien eller konfidensintervallet)., At huske disse principper og rammerne for HR/RR/eller minimerer forkert repræsentation og forhindrer en i at drage forkerte konklusioner fra resultaterne af en offentliggjort undersøgelse vedrørende forskellige prøver. Figur 2 opsummerer korrekt og forkert brug af disse forskellige risikoforhold.
Leave a Reply