taxalloy.pages.dev









Varians om utfallet är ja eller nej

Mått vid prediktiva förmåga

eng.

Hur påverkas NPV (negativt prediktivt värde) samt PPV (positivt prediktivt värde) från för att prevallensen på grund av utfallet existerar nedsänkt (sjukdomen/utfallet existerar ovanligt)?.

performance metrics, evaluation metrics

I flera föregående avsnitt äger benämningen precision använts regelbundet till för att referera mot modellers prediktionsförmåga. Detta existerar egentligen inkorrekt eftersom precision existerar en särskilt mått vid prediktionsförmåga. detta finns ett utdragen rad mått liksom beskriver olika nyanser från prediktionsförmåga.

Dessa mått används till för att bedöma samt jämföra modeller (exempelvis beneath korsvalidering). Vilket mått såsom existerar detta optimala varierar tillsammans frågeställning samt situation.

Ur detta perspektive finns tre typer från modeller:

  1. Klassifikationsmodeller (klassifikation).
  2. Regressionsmodeller (regression).
  3. Överlevnadsmodeller (överlevnadsanalys).

I detta avseende syftar regression ej vid den klassiska raka regressionsmodellen, utan vid varenda modeller såsom predicerar kontinuerliga konsekvens (vare sig detta görs tillsammans med klassiska regressionsmodeller, machine learning, djupinlärning, alternativt någon ytterligare metod).

Per definition existerar varians samt standardavvikelse båda variationsmått till intervall-kvotsvariabler.

tillsammans regression åsyftas på denna plats enstaka modell tillsammans med kontinuerligt utfallsmått.

Klassifikation syftar vid samtliga modeller, oavsett typ, vilket predicerar en kategoriskt utfallsmått. inom dem flesta fall existerar utfallet binärt (ja/nej, sjuk/frisk, död/levande, etc), dock detta kunna artikel multinomialt (>2 kategorier).

Den tredjeplats typen från modell existerar överlevnadsanalys, var utfallet existerar tid mot enstaka incident inträffar.


  • varians  ifall utfallet  existerar ja  alternativt nej

  • Överlevnadsanalys intar ett särställning eftersom utfallet existerar kontinuerligt (tid) dock likt regel erfar/drabbas ej samtliga deltagarna från händelsen liksom studeras. dem liksom ej drabbas/erfar händelsen beneath studiens observationstid blir censurerade. Detta fullfölja för att modellen ej existerar ett vanlig klassifikationsmodell samt därför behövs särskilda mått vid prediktionsförmåga.

    Klassifikation

    Konfusionsmatris (Confusion matrix)

    Konfusionsmatrisen existerar fundamental nära utvärdering från klassifikationsmodeller.

    inom denna enkla korstabell finns fera viktiga mått.

    Om utfallsmåtet (Y) existerar alkoholkonsumtion sålunda är kapabel linjär regression användas till för att utröna angående koloncancer-status (ja/nej) existerar enstaka statistisks signifikant prediktor.

    Nedanstående korstabell visar ett konfusionsmatris. Matrisen utläses vilket följer:

    • True positiv (TP): Både modellen samt verkligheten visar positivt utfall.
    • True negativ (TN): Både modellen samt verkligheten visar negativt utfall.
    • False positiv (FP): Modellen predicerar positivt resultat, dock inom verkligheten plats detta negativt utfall.
    • etc.
    Predicerat positiv (PP)Predicerat negativ (PN)
    Faktiskt positiv (P)True positiv (TP)False negativ (FN)
    Faktiskt negativ (N)False positiv (FP)True negativ (TN)

    Från enstaka konfusionsmatris kunna nästa parametrar beräknas:

    • Accuracy: Andelen från positiva vilket klassificeras liksom positiva.
    • Sensitivitet:
      • Formel: \(\frac{TP}{TP+FN}\)
      • Betydelse: Andel från positiva såsom klassificeras vilket positiva.
      • Synonym: Recall, True positiv Rate, Hit Rate.
    • Specificitet:
      • Formel: \(\frac{TN}{TN+FP}\)
      • Betydelse: Andel från negativa vilket klassificeras liksom negativa.
      • Synonym: True negativ Rate
    • Positive Predictive Value (PPV):
      • Formel: \(\frac{TP}{TP+FP}\)
      • Betydelse: Sannolikhet på grund av positivt påverkan angående predicerat vilket positivt.
      • Synonym: noggrannhet
    • Negative Predictive Value (NPV):
      • Formel: \(\frac{TN}{TN+FN}\)
      • Betydelse: Sannolikhet till negativt konsekvens angående predicerat liksom negativt.
    • F-score:
      • Formel: \(\frac{2}{sensitivitet^{-1}+precision^{-1}}\)

    ROC samt AUC-ROC

    En ROC-kurva existerar ett grafisk framställning från prediktionsförmåga till enstaka klassifikationsmodell tillsammans binärt konsekvens.

    Den illustrerar hur prediktionsförmågan ändras då beslutströskeln justeras. Beslutströskeln existerar gränsvärdet (för sannolikhet) då en fall klassificeras likt positivt.

    Varians brukar räknas ut tillsammans ett från dem på denna plats formlerna, dem existerar egentligen ett omskrivning från varandra samt ger identisk svar.

    ifall modellen predicerar för att sannolikheten till positivt konsekvens existerar högre än beslutströskeln därför predicerar den positivt konsekvens. ifall beslutströskeln placeras mot 50% sannolikhet samt en fall prediceras äga 49% sannolikhet på grund av positit resultat sålunda kommer modellen predicera negativt konsekvens. angående fallet däremot prediceras äga 51% sannolikhet på grund av positivt påverkan således kommer modellen predicera positivt konsekvens.

    angående beslutströskeln sänks ifrån 50% mot 10% kommer flera fler klassificeras likt positiva; sensitivitet stiger dock specificitet sjunker.

    Läsarfråga: Ja- samt nej-fråga.

    ROC-kurvan skapas genom för att rita sensitivitet mot FPR (false positiv rate, vilket existerar identisk såsom 1-specificitet) nära samtliga värden vid beslutströskeln. modell vid ROC-kurva följer.

    Arean beneath ROC-kurvan (AUC-ROC)

    Observera den streckade diagonala linje vid ovanstående ROC-kurva. Arean beneath den streckade linje existerar 0.5 (arean saknar enhet).

    enstaka ROC-kurva såsom faller vid den diagonala sträcka saknar prediktiv förmåga.

    Modellens prediktionsförmåga existerar då likvärdig tillsammans med slumpen. ett modell vars ROC-kurva existerar ovanför linje existerar förbättrad än slumpen. Arean beneath ROC-kurvan kunna alltså summera hur utmärkt modellen existerar. ROC-kurvor nära 1 ses ytterst sällan; modell vid analyser vilket besitter AUC-ROC nära 1.0 existerar PCR-analyser på grund av virus.

    Kliniska prediktionsmodeller besitter såsom regel AUC-ROC mellan 0.6 samt 0.9. Modeller inom ekonomi, psykologi samt andra domäner besitter snarlika ROC-resultat.

    Concordance index (C-index)

    C-index existerar ett förenkling från ROC-kurvan. C-index tar censurering inom beaktande, vilket existerar en krav på grund av för att behärska användas inom överlevnadsanalys.

    Väntevärde samt varians.

    C-index existerar modellens globala förmåga för att predicera överlevnadstid.

    Formeln till C-index:

    \begin{equation} \text{C-index} = \frac{ \sum_{i, j} \mathbb{1}_{T_j < T_i} \cdot \mathbb{1}_{\eta_j > \eta_i} \cdot \delta_j }{\sum_{i, j} \mathbb{1}_{T_j < T_i}\cdot \delta_j } \end{equation}

    Cox regression samt andra modeller vilket använder Cox loss funktion utvärderas tillsammans med C-index.

    C-index tolkas analogt tillsammans fågel.

    detta innebär för att C-index 1.0 betyder för att modellen existerar perfekt. C-index 0.5 innebär för att modellen ej existerar förbättrad än slumpen.

    Fördjupning: Uno et al.

    Brier score

    Brier score används på grund av för att bedöma ett överlevnadsmodells prediktionsförmåga nära tidsperiod \(t\).

    detta innebär för att Brier score förtäljer vad modellens förmåga existerar nära ett given tidpunkt. Brier score varierar mellan 0 samt 1. Brier score existerar detta genomsnittliga kvadrerade avståndet mellan observerad överlevnad samt faktisk överlevnad; 0 innebär för att modellen existerar optimal eftersom detta ej finns någon skillnad mellan prediktionen samt detta observerade.

    Integrerad Brier Score

    Integrerad Brier score ger en totalt mått vid Brier score ovan samtliga värden vid överlevnadstid (survival time).

    Regression

    Följande mått används på grund av för att bedöma modeller tillsammans kontinuerliga utfallsmått.

    Error, såsom används inom flera från dessa mått, existerar skillnaden vid detta faktiskta värdet \(Y\) samt detta predicerade värdet vid \(Y\).

    R2

    R2 existerar variansen liksom förklaras från modellen.

    Klassifikation syftar vid samtliga modeller, oavsett typ, likt predicerar en kategoriskt utfallsmått.

    Detta måttet existerar många populärt på grund av för att värdera modeller tillsammans med kontinuerliga utfallsmått. R2 antar en värde mellan 0 samt 1, var 0 innebär för att modellen ej redogör någon varians (dvs modellen saknar förklaringskapacitet) samt 1 innebär för att modellen redogör all varians.

    \begin{equation} {R}^{2} = 1 - \frac { \sum_{i=1}^{n} (\ y_i -\hat{y_i} )^{2} } { \sum_{i=1}^{n} (\ y_i -\bar{y_i} )^{2} } \end{equation}

    MAE (Mean Absolute Error)

    MAE existerar genomsnittet vid detta absoluta mätfelet.

    Errors kvadreras ej, vilket utför måttet mindre känsligt på grund av enstaka outliers (stora värden).

    \begin{equation} MAE = \frac{1}{n} \sum_{i=1}^{n} |{y_i}-\hat{y_i}| \end{equation}

    MAPE (Mean Absolute Percent Error)

    MAPE existerar MAE uttryckt inom andel, vilket existerar en mått såsom människor besitter enkel för att förstå.

    Nackdelen tillsammans med MAPE existerar för att ifall error = 0, därför är kapabel MAPE ej beräknas eftersom ett divison (för för att beräkna procent) tillsammans 0 ger en oändligt anförande. Dessutom äger MAPE ett trend för att föredra modeller såsom predicerar lägre värden vid Y än dem faktiska värdena.

    \begin{equation} MAPE = \frac{1}{n} \sum_{i=1}^{n} {\left|\frac{{y_i}-\hat{y_i}}{y_i}\right|} \end{equation}

    RMSE (Root Mean Squared Error)

    RMSE existerar kvadratroten från detta kvadrerade errors medelvärde.

    RMSE förtäljer hur långt prediktionerna existerar ifrån detta faktiskt värdet vid identisk grupp vilket Y. eftersom error kvadreras således äger enstaka outliers (stora värden) större effekt vid RMSE än vid MAE samt MAPE.

    \begin{equation} RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} ({y_i}-\hat{y_i}){^2}}\end{equation}