Afleveringen
-
Antiepileptic Drug Exposure in Infants of Breastfeeding Mothers With Epilepsy
המקדם עבור משתנה מסביר ברגרסיה הלינארית מציין שיפוע של קו. זהו הקו המתאר את הקשר בינו לבין המשתנה החזוי. בעזרת השאריות סביב קו זה אפשר לחשב את סטיית התקן לשיפוע הקו. מתוך סטיית תקן זו, מחושבת שגיאת תקן ובעזרתה אפשר לבנות רווח בר סמך. רווח בר סמך זה הוא עבור שיפוע הקו, זאת אומרת עבור המקדם בנוסחת הרגרסיה הלינארית. כאשר רווח בר סמך כולל את הערך 0, התוצאה אינה מובהקת, כיוון ששיפוע 0 מייצג העדר קשר בין המשתנה המסביר למשתנה החזוי.
Linear regression
Inference in linear regression
Confidence interval for the regression coefficient
Statistical significance
-
Neoadjuvant FOLFIRINOX versus upfront surgery for resectable pancreatic head cancer (NORPACT-1): a multicentre, randomised, phase 2 trial
מבחן הלוג-ראנק עוזר כאשר יש שתי קבוצות ולכל אחת מהן עקומת קפלן מאייר. המבחן בודק האם כאשר השערת האפס נכונה, סביר לקבל הבדל בין העקומות כפי שהתקבל במחקר.
השיטה של המבחן מאוד דומה למבחן חי בריבוע, ומתבססת על הפער בין הצפוי (בנוכחות השערת האפס) למה שהתקבל בפועל במחקר. אך בניגוד לחי בריבוע הרגיל, כאן הפער מחושב פעמים רבות (עבור נקודות זמן מרובות). מספר האירועים הצפוי בנקודת זמן מסוימת נובע מחלוקה של האירועים בין שתי הקבוצות באופן יחסי לגודלן. במלים אחרות, כמות האירועים הצפוייה בכל קבוצה תלויה בכמות האנשים בסיכון בכל נקודות זמן. הפער מתוקנן לכמות האירועים הצפויה בכל קבוצה.
ככל שהפער בין הצפוי בנוכחות השערת האפס למה שהתקבל בפועל יותר גדול, כך יתקבל במבחן הזה ערך גדול יותר, וערך ה p יהיה קטן יותר.
Log rank test
Kaplan-meier curves
Statistical inference
-
Zijn er afleveringen die ontbreken?
-
Neoadjuvant FOLFIRINOX versus upfront surgery for resectable pancreatic head cancer (NORPACT-1): a multicentre, randomised, phase 2 trial
למרות שמדובר בטכניקות מורכבות, גם הרגרסיות וגם עקומת קפלן מאייר הן רק סטטיסטיקה תיאורית. הן מספרות לנו משהו על המדגם במחקר מסוים, אך אינן מספיקות כדי להסיק מתוכן על המציאות, האמת שמחוץ למחקר. כדי להסיק על המציאות ניתן להשתמש ברווח ברך סמך (עבור מקדמי רגרסיות, למשל) ובמבחנים סטטיסטיים (להשוואה בין שתי עקומות קפלן-מאייר, למשל)
Kaplan-meier curves
Cox regression
Statistical inference in regressions
Statistical test
Confidence interval
-
Relationship between Clinic and Ambulatory Blood-Pressure Measurements and Mortality
התוסף של המאמר
נוסחת רגרסיית קוקס דומה מאוד לנוסחת הרגרסיה הלוגיסטית. בשני המקרים מדובר בחזקה, במספר אוילר (e) בבסיס, ובמעריך שבו רצף דומה מאוד לנוסחת הרגרסיה הלינארית: מכפלות המחוברות אחת לשנייה. כל מכפלה היא מקדם מסוים כפול משתנה מסויים, למשל המקדם 0.48 כפול לחץ הדם הסיסטולי. כדי לתרגם מקדם ל HR (hazard ratio), אפשר פשוט להציב אותו כמעריך של מספר אוילר (e). למשל, כאשר מספר אוילר מועלה בחזקת 0.48, מקבלים HR של 1.58, וזוהי הייתה אכן התוצאה שפורסמה במחקר ושהתקבלה מתוך רגרסיית קוקס שכללה גם משתנים אחרים. ה HR לתמותה כללית היה 1.58 עבור כל עליה של סטיית תקן אחת (14 ממ כספית) בלחץ הדם הביתי. (רווח בר סמך: 1.56-1.60)
Cox regression formula
Cox regression coefficients
Hazard ratio- HR
Translation from coefficients to HR
-
Relationship between Clinic and Ambulatory Blood-Pressure Measurements and Mortality
התוסף של המאמר
יש שתי סיבות עקריות להשתמש ברגרסיית קוקס ולא בעקומות קפלן מאייר. אחת- כאשר המשתנה המסביר הוא כמותי (ולא קטגוריאלי עם שתי קבוצות בלבד). השנייה, חשובה יותר, היא כיוון שכך ניתן לקחת בחשבון מאפיינים נוספים מרובים של המטופלים, ולנטרל ערפלנים.
Cox regression
Multivariate analysis
Adjustment for confounders
Prediction
Kaplan-Meier method
-
Relationship between Clinic and Ambulatory Blood-Pressure Measurements and Mortality
התוסף של המאמר
בפרק הזה נבין את משמעות ה hazard ratio (HR) בתוצאות מחקר.
עבור משתנה כמותי , HR מציין פי כמה הקצב של האירועים גדל עבור כל יחידת מדידה של המשתנה. עבור משתנה קטגוריאלי, נבחרת קבוצת התייחסות, וה HR מציין פי כמה קצב האירועים גדל כאשר המשתתף שייך לקבוצה אחרת.
כאשר ה HR גדול מ 1, מדובר בעליה בסיכון לאירוע. כאשר הוא קטן מ 1, מדובר בירידת סיכון, וכאשר הוא 1, מדובר במשתנה שלא משפיע על האירוע. הרווח בר סמך סביב ה HR מראה לנו האם התוצאה מובהקת. רווח בר סמך הכולל בתוכו את המספר 1 מעיד על תוצאה שאינה מובהקת- גורם סיכון שאולי לא באמת מגביר סיכון, או טיפול שאולי לא באמת מפחית סיכון.
Cox regression
Hazard ratio
(Categorical (nominal) variable (and reference
Quantitative variable
Cox regression coefficients
Confidence interval for hazard ratio
statistical significance of hazard ratio
-
טעות בהעלאת הפרק האחרון: ההקלטה שהועלתה השבוע לפרק "ההסבר הפשוט על רגרסיית קוקס" הייתה שגויה, וכעת העניין תוקן וההקלטה הנכונה הועלתה. מעכשיו באתר הפודקאסט ebm.podneam.com ועוד כמה ימים בכל אפליקציות הפודקאסטים, תוכלו לשמוע את הפרק האמיתי. תודה רבה לאביהוא על ההערה ובכלל לכל המאזינים ששלחו לי הערות, רעיונות ובקשות. לפודקאסט יש דף פייסבוק: "רפואה נתמכת ראיות- הפודקאסט" ואפשר לשלוח לי דרכו הערות מחשבות ובעקר, אם יש נושא חשוב בסטטיסטיקה שנראה לכם שהחמצתי ותרצו שאעשה עליו פרק.
-
Relationship between Clinic and Ambulatory Blood-Pressure Measurements and Mortality
התוסף של המאמר
רגרסיית קוקס היא מודל שמשתמש במונח ההאזארד, ומכפיל אותו ב hazard ratio מסוים עבור כל משתנה, כדי לקבל האזארד חדש. הנחת היסוד של המודל הזה, היא שהיחס בין שני האזארדים (ה hazard ratio) עבור כל משתנה נשאר דומה לאורך תקופת המעקב. המודל מאפשר לנו להעריך את אותו יחס, זאת אומרת פי כמה קצב האירועים (ההאזארד) בקבוצה אחת גבוה מקצב האירועים בקבוצה אחרת בנקודת זמן מסוימת. בגלל הנחת היסוד, אותו יחס יהיה רלוונטי בנקודות זמן שונות.
Proportional hazards model- Cox regression
Proportional hazards assumption
hazard
hazard ratio
-
Early Palliative Care for Patients with Metastatic Non–Small-Cell Lung Cancer
Initial Invasive or Conservative Strategy for Stable Coronary Disease
עקומת קפלן מאייר היא אומדן. אומדן של עקומת השרידות אותה היינו רואים לו היו לנו נתונים עבור כל התקופה לכל משתתפי המחקר. בציר האופקי נמצא הזמן מתחילת המעקב, או מהרנדומיזציה, ובציר האנכי אומדן אחוז השרידות (או שיעור ההארעות המצטבר). אם נרצה לבדוק מהו אחוז השרידות לאחר תקופת זמן מסוימת, נתחיל מהציר האופקי. נחתוך את הגרף בנקודת הזמן שמעניינת אותנו, ואז נבדוק מהו אחוז השרידות בציר האנכי. אם נרצה לבדוק מהו אומדן זמן השרידות החציוני, נתחיל מהציר האנכי, בגובה בו השרידות היא 50%, ונבדוק באיזו נקודת זמן הגרף נחתך. לעתים על גבי העקומה יסומנו קווים אנכיים קטנים- אלו הם מקרי הצנזור, אנשים שעדיין לא חוו אירוע, אך שמנקודת זמן זו והלאה כבר אין לגביהם נתונים. סביב עקומת קפלן מאייר אפשר לצייר ענן שמייצג רווח בר סמך לשיעור השרידות עבור כל נקודה בזמן.
Kaplan-meyer curve
Censoring
Confidence interval for the KM curve
Number at risk
Median survival time
-
Initial Invasive or Conservative Strategy for Stable Coronary Disease
עקומת קפלן מאייר היא אומדן לעקומת שרידות או לעקומת אירועים מצטברים, וההסתכלות עליה דומה מאוד. אך בכל נקודת זמן היא מחושבת ומשורטטת לפי המשתתפים במחקר שזמינים לחוקרים. כיוון שבמחקר יש גיוס הדרגתי של משתתפים, חלק מהמשתתפים, אלו שגויסו מוקדם, יהיו עם זמן מעקב ארוך, אך חלק אחר, הקבוצה שגויסה מאוחר, ישתתפו במחקר רק זמן קצר ולכן יתרמו נתונים רק לתקופת הזמן הראשונה. בכל נקודת זמן אחוז הצטברות האירועים מחושב לא יחסית לקבוצה כולה אלא יחסית למספר האנשים הזמינים למעקב שעדיין לא עברו אירוע. אנשים הזמינים למעקב מייצגים עבור החישוב גם את האנשים שכבר אינם זמינים למעקב. העקומה המתקבלת מייצגת ומעריכה את שיעור האירועים המצטברים, או את שיעור השרידות בכל הקבוצה, אך חשוב לזכור שזהו רק אומדן, כיוון שלאורך הזמן יש פחות ופחות אנשים עבורם קיימים נתונים.
Kaplan meyer curve
Kaplan-Meier estimate
number at risk
-
Relationship between Clinic and Ambulatory Blood-Pressure Measurements and Mortality
התוסף של המאמר
Initial Invasive or Conservative Strategy for Stable Coronary Disease
האזארד הוא הסיכוי לאירוע ביחידת הזמן הקרובה, בתנאי שהמשתתף במחקר כבר הגיע לנקודת זמן זו ללא אירוע עד כה. במלים פשוטות מדובר בקצב האירועים הצפוי ביחידת זמן, אך חשוב להבין שמדובר בחישוב מותנה: רק עבור אלו שהגיעו לתחילת יחידת זמן זו ללא התרחשות האירוע. גם כאשר קצב האירועים הוא לכאורה אחיד, למשל 600 אירועים בשנה מתוך 30000 משתתפים בתחילת המחקר, ההאזארד משתנה, כיוון שבתחילת המחקר יש 30,000 איש בסיכון, אך לאחר ארבע שנים ו 2400 אירועים, נותרו רק 27,600 איש בסיכון ורק מתוכם מחושב ההאזארד עבור נקודת הזמן הזו.
אם יש לנו נתונים של ההאזארד בשתי קבוצות באותה נקודת זמן, אפשר לחלק האזארד של קבוצה אחת בהאזארד של הקבוצה השניה ולקבל את היחס ביניהם: ההאזארד רשיו (סליחה על האינגליש).
במצבים מסוימים, יחס זה נשאר קבוע פחות או יותר לאורך כל תקופת המעקב ואז החוקרים יציגו לנו אותו כהאזארד רשיו הכללי. למשל, במחקר על השפעת יתר לחץ דם ממוסך על תמותה כללית, ההאזארד רשיו (של אנשים עם יתר לחץ דם ממוסך לעומת אנשים ללא יתר לחץ דם) היה 2.8.
במצבים אחרים, בהם עקומות ההשרדות של שתי קבוצות חוצות אחת את השנייה, נוכל להבין שההאזארד רשיו אינו קבוע.
hazard
Hazard ratio (HR)
-
Relationship between Clinic and Ambulatory Blood-Pressure Measurements and Mortality
התוסף של המאמר
במחקרים בהם עוקבים אחר אנשים לאורך זמן ובודקים מתי התרחש אירוע מסויים, למשל תמותה, אפשר לשרטט את גרף האירועים המצטברים לאורך זמן, זאת אומרת איזה אחוז מהקבוצה המקורית עבר כבר אירוע בנקודת זמן כלשהי.
בכל נקודת זמן, יש גם את קבוצת האנשים שלא עברו אירוע, ואלו נקראים "השורדים". נאמר שהאירוע בו מדובר הוא תמותה. בכל נקודת זמן אחוז השרידות הוא המשלים לאחד של אחוז התמותה המצטברת. למשל, אם עד נקודה מסוימת נפטרו 2% מהקבוצה המקורית, אחוז השרידות באותה נקודה יהיה 98%. לכן, עקומת השרידות תהיה עקומה הפוכה לעקומת התמותה המצטברת, מעין תמונת ראי שלה. עקומת התמותה המצטברת תהיה גרף עולה, ועקומת השרידות, גרף יורד.
כאשר קצב האירועים (יחסית לקבוצה ממנה התחלנו!) הוא אחיד, עקומת השרידות תהיה קו ישר, אך כאשר קצב האירועים מתמתן, עקומת השרידות תהיה מעוקלת, עם "בטן" הפונה כלפי מטה.
Survival analysis
Survival curve
-
Predicting Mortality in Patients with Diabetes Starting Dialysis
מהי משמעות הקבוע והמקדמים המתקבלים ברגרסיה לוגיסטית ואיך לתרגם את המקדמים ליחסי הסיכויים
יחסי הסיכויים - odds ratio
-
ישנה דרך אחרת לבטא את נוסחת הרגרסיה הלוגיסטית שהכרנו בפרק הקודם. במקום להשתמש בחזקה שבה מספר אוילר הוא הבסיס, והתוצאה היא האודס, מבצעים לוג על שני הצדדים ומקבלים את הנוסחה הזו:
Log odds=R
כאשר "R" היא נוסחת הרגרסיה הלינארית המוכרת והלוג הוא על בסיס e.
כך שאם ברגרסיה הלינארית הצבנו את הקבוע והמקדמים בצורה שתתן לנו ערך, כאן מתקבל לנו ה log odds, ולכן logistic
logistic regression
מספר אוילר- e
-
Predicting Mortality in Patients with Diabetes Starting Dialysis
איך בנויה נוסחת הרגרסיה הלוגיסטית? היא משתמשת באותה נוסחה לינארית שהכרנו, אך התוצאה שלה צריכה לייצג סבירות. את זה הנוסחה עושה בעזרת שימוש בשני טריקים מתמטיים. הראשון הופך את התוצאה לכזו שתמיד תהיה חיובית- הכנסת הנוסחה כמעריך של חזקה. השני מאפשר להשתמש בתוצאה גם כשהיא גדולה מאחד: התוצאה מתקבלת בצורת odds במקום כ risk.
Logistic regression formula
Logistic regression coefficients
-
West Nile Virus Disease: A Descriptive Study of 228 Patients Hospitalized in a 4-County Region of Colorado in 2003
ברגרסיה לוגיסטית הערך החזוי אינו מספר אלא סיכוי. למשל, באנשים עם מעורבות מוחית של קדחת הנילוס המערבי, מה הסיכוי לתמותה. כמו ברגרסיה לינארית, מדובר במצבים בהם אנחנו רוצים לבחון כמה משתנים מסבירים בבת אחת כדי לחזות משתנה (חזוי) אחד. אך כאן המשתנה החזוי הוא קטגוריאלי. למשל, נפטר או לא נפטר. דרך פשוטה להסביר רגרסיה לוגיסטית, היא שהיא מאפשרת לנו לבצע תחזית בעזרת סיכוי בסיסי מסויים, המוכפל ביחסי סיכויים. הסיכוי כאן מוגדר כ odds ולא כ risk.
אם ברגרסיה הלינארית עסקנו בחיבור של מכפלות כדי לקבל ערך מספרי, כאן עוסקים בכפל של מכפלות כדי לקבל odds לאירוע.
בהמשך נסביר את נוסחת הרגרסיה בצורה מדויקת יותר, אך בינתיים אפשר להבינה כך: קבלת נוסחת הרגרסיה בעזרת המחקר מאפשרת לחשב את ה odds החזוי, כיוון שהיא מספקת odds בסיסי, וכן odds ratio מסויים עבור כל אחד מהמשתנים. למשל, במחקר שהוזכר בפרק, עבור דיכוי חיסוני , ה OR לתמותה היה 26. לכן, כאשר יש דיכוי חיסוני, ה odds לתמותה מוכפל ב 26.
Logistic regression
Odds
Odds ratio=OR
Multivariate analysis
-
The Mortality of Doctors in Relation to Their Smoking Habits
כדי להבין רגרסיה לוגיסטית נצטרך להבהיר שני מושגים.
Odds
המונח "אודס" הוא דרך לבטא סיכון או סיכוי לאירוע מסוים. בכך הוא דומה מאוד לסיכון ("ריסק"). הוא מציין חלוקת שני מספרים: אלו עם האירוע חלקי אלו ללא האירוע, לדוגמה מספר האנשים שנפטרו חלקי מספר האנשים שלא נפטרו. בניגוד לסיכון, "ריסק", שיכול לקבל רק ערכים קטנים מ 1, אודס יכול להיות כל מספר חיובי. כאשר מדובר באירועים נדירים, האודס והריסק יהיו קרובים מאוד. (סליחה על הכיתוב באינגליש, אך האתר מסדר מלים באנגלית מחוץ לשורה) אך באירועים נפוצים הם יהיו שונים מאוד.
Odds ratio
אם יש לנו שתי קבוצות ובכל אחת מצאנו מהו ה"אודס", נוכל לבצע חלוקה בין שני אלו ולקבל את היחס ביניהם. זהו האודס רשיו, יחס הסיכויים. כאשר מדובר באירועים נדירים, יחס זה יהיה קרוב ל"רלטיב ריסק", יחס הסיכונים.
האודס מאפשר לעשות פעולות שלא ניתן לבצע עם ריסק, כיוון שתמיד יהיה אפשר להכפיל אודס באודס רשיו ולקבל אודס חדש. למשל, אם ידוע לנו מהו האודס לסרטן ריאה במעשנים קלים יחסית, נוכל להכפיל את האודס הזה באודס רשיו שחושב עבור עישון כבד ולקבל את האודס (הסיכוי) לסרטן ריאה במעשנים כבדים.
Odds
Odds ratio
Risk
Relative risk
-
Associations of Amyloid Burden, White Matter Hyperintensities, and Hippocampal Volume With Cognitive Trajectories in the 90+ Study
רגרסיה לינארית מצריכה קשר לינארי בין המשתנה המסביר למשתנה החזוי. מה קורה כאשר לא זה המצב?
ניתן לבצע טרנספורמציה (ביטוי מחדש) לאחד המשתנים, כפי שהסברנו בפרק "ביטוי מחדש"
ואז להכניס את המשתנה (לאחר הביטוי מחדש שלו) לנוסחת הרגרסיה. לכן לעתים כאשר נקרא מאמר שהשתמש ברגרסייה לינארית, ניתקל במושג טרנספורמציה. שיטה זו מקובלת ורצויה אך גוזלת מאתנו הקוראים את הבנת המשמעות הקלינית של מקדם הרגרסיה.
linear regression
log-transformation
assumptions
-
Prediction Factors in the Determination of Final Height in Subjects Born Small for Gestational Age
רגרסיה לינארית מנסה לחזות עבור משתתפי המחקר מהו ערך המשתנה החזוי אצלם, בעזרת המשתנים המסבירים. עד כמה היא עושה את זה טוב? מדד פשוט הוא היחס בין השונות של המשתנה החזוי המוסברת על ידי נוסחת הרגרסיה, חלקי השונות הכללית של אותו משתנה חזוי. זהו ערך ה R בריבוע.
R squared
Total variation
Variation explained by the regression
Overfitting
-
Prediction Factors in the Determination of Final Height in Subjects Born Small for Gestational Age
ברגרסיה לינארית מרובה, תוצאת המחקר היא נוסחת רגרסיה עם מקדמים. אותם מקדמים הם הדבר שמעניין אותנו, כיוון שהם יראו לנו מהי השפעת משתנה מסוים, כששאר המשתנים נשארים קבועים. כאשר מדברים על תיקון (adjustment) למשתנים נוספים או שליטה (control) עליהם, הכוונה היא חישוב מקדם הרגרסיה של המשתנה שמעניין אותנו כאשר הרגרסיה כוללת גם את המשתנים הנוספים האלו.
מקדם הרגרסיה ברגרסיה לינארית אומר בכמה יחידות יעלה המשתנה החזוי כאשר יש עלייה של יחידה אחת במשתנה המסביר. אך כאשר יש משתנה מסביר קטגוריאלי (שהוא לא כמותי ולכן אין לו יחידות), צריך למצוא פתרון כדי לתת למשתנה הזה ערך מספרי. קטגוריה אחת בדרך כלל תקבל את הערך 0, וקטגוריה שניה את הערך 1, וערכים אלו יוכפלו במקדם. לכן עבור משתנה קטגוריאלי מקדם הרגרסיה אומר לנו בכמה יחידות יעלה המשתנה החזוי אצל משתתף בקטגוריה 1 יחסית למשתתף בקטגוריה 0 כאשר כל שאר המשתנים נשארים קבועים.
R squared in linear regression
Regression coefficients
Controlling/adjusting for other variables
- Laat meer zien