Afleveringen
-
טעות בהעלאת הפרק האחרון: ההקלטה שהועלתה השבוע לפרק "ההסבר הפשוט על רגרסיית קוקס" הייתה שגויה, וכעת העניין תוקן וההקלטה הנכונה הועלתה. מעכשיו באתר הפודקאסט ebm.podneam.com ועוד כמה ימים בכל אפליקציות הפודקאסטים, תוכלו לשמוע את הפרק האמיתי. תודה רבה לאביהוא על ההערה ובכלל לכל המאזינים ששלחו לי הערות, רעיונות ובקשות. לפודקאסט יש דף פייסבוק: "רפואה נתמכת ראיות- הפודקאסט" ואפשר לשלוח לי דרכו הערות מחשבות ובעקר, אם יש נושא חשוב בסטטיסטיקה שנראה לכם שהחמצתי ותרצו שאעשה עליו פרק.
-
Relationship between Clinic and Ambulatory Blood-Pressure Measurements and Mortality
התוסף של המאמר
רגרסיית קוקס היא מודל שמשתמש במונח ההאזארד, ומכפיל אותו ב hazard ratio מסוים עבור כל משתנה, כדי לקבל האזארד חדש. הנחת היסוד של המודל הזה, היא שהיחס בין שני האזארדים (ה hazard ratio) עבור כל משתנה נשאר דומה לאורך תקופת המעקב. המודל מאפשר לנו להעריך את אותו יחס, זאת אומרת פי כמה קצב האירועים (ההאזארד) בקבוצה אחת גבוה מקצב האירועים בקבוצה אחרת בנקודת זמן מסוימת. בגלל הנחת היסוד, אותו יחס יהיה רלוונטי בנקודות זמן שונות.
Proportional hazards model- Cox regression
Proportional hazards assumption
hazard
hazard ratio
-
Zijn er afleveringen die ontbreken?
-
Early Palliative Care for Patients with Metastatic Non–Small-Cell Lung Cancer
Initial Invasive or Conservative Strategy for Stable Coronary Disease
עקומת קפלן מאייר היא אומדן. אומדן של עקומת השרידות אותה היינו רואים לו היו לנו נתונים עבור כל התקופה לכל משתתפי המחקר. בציר האופקי נמצא הזמן מתחילת המעקב, או מהרנדומיזציה, ובציר האנכי אומדן אחוז השרידות (או שיעור ההארעות המצטבר). אם נרצה לבדוק מהו אחוז השרידות לאחר תקופת זמן מסוימת, נתחיל מהציר האופקי. נחתוך את הגרף בנקודת הזמן שמעניינת אותנו, ואז נבדוק מהו אחוז השרידות בציר האנכי. אם נרצה לבדוק מהו אומדן זמן השרידות החציוני, נתחיל מהציר האנכי, בגובה בו השרידות היא 50%, ונבדוק באיזו נקודת זמן הגרף נחתך. לעתים על גבי העקומה יסומנו קווים אנכיים קטנים- אלו הם מקרי הצנזור, אנשים שעדיין לא חוו אירוע, אך שמנקודת זמן זו והלאה כבר אין לגביהם נתונים. סביב עקומת קפלן מאייר אפשר לצייר ענן שמייצג רווח בר סמך לשיעור השרידות עבור כל נקודה בזמן.
Kaplan-meyer curve
Censoring
Confidence interval for the KM curve
Number at risk
Median survival time
-
Initial Invasive or Conservative Strategy for Stable Coronary Disease
עקומת קפלן מאייר היא אומדן לעקומת שרידות או לעקומת אירועים מצטברים, וההסתכלות עליה דומה מאוד. אך בכל נקודת זמן היא מחושבת ומשורטטת לפי המשתתפים במחקר שזמינים לחוקרים. כיוון שבמחקר יש גיוס הדרגתי של משתתפים, חלק מהמשתתפים, אלו שגויסו מוקדם, יהיו עם זמן מעקב ארוך, אך חלק אחר, הקבוצה שגויסה מאוחר, ישתתפו במחקר רק זמן קצר ולכן יתרמו נתונים רק לתקופת הזמן הראשונה. בכל נקודת זמן אחוז הצטברות האירועים מחושב לא יחסית לקבוצה כולה אלא יחסית למספר האנשים הזמינים למעקב שעדיין לא עברו אירוע. אנשים הזמינים למעקב מייצגים עבור החישוב גם את האנשים שכבר אינם זמינים למעקב. העקומה המתקבלת מייצגת ומעריכה את שיעור האירועים המצטברים, או את שיעור השרידות בכל הקבוצה, אך חשוב לזכור שזהו רק אומדן, כיוון שלאורך הזמן יש פחות ופחות אנשים עבורם קיימים נתונים.
Kaplan meyer curve
Kaplan-Meier estimate
number at risk
-
Relationship between Clinic and Ambulatory Blood-Pressure Measurements and Mortality
התוסף של המאמר
Initial Invasive or Conservative Strategy for Stable Coronary Disease
האזארד הוא הסיכוי לאירוע ביחידת הזמן הקרובה, בתנאי שהמשתתף במחקר כבר הגיע לנקודת זמן זו ללא אירוע עד כה. במלים פשוטות מדובר בקצב האירועים הצפוי ביחידת זמן, אך חשוב להבין שמדובר בחישוב מותנה: רק עבור אלו שהגיעו לתחילת יחידת זמן זו ללא התרחשות האירוע. גם כאשר קצב האירועים הוא לכאורה אחיד, למשל 600 אירועים בשנה מתוך 30000 משתתפים בתחילת המחקר, ההאזארד משתנה, כיוון שבתחילת המחקר יש 30,000 איש בסיכון, אך לאחר ארבע שנים ו 2400 אירועים, נותרו רק 27,600 איש בסיכון ורק מתוכם מחושב ההאזארד עבור נקודת הזמן הזו.
אם יש לנו נתונים של ההאזארד בשתי קבוצות באותה נקודת זמן, אפשר לחלק האזארד של קבוצה אחת בהאזארד של הקבוצה השניה ולקבל את היחס ביניהם: ההאזארד רשיו (סליחה על האינגליש).
במצבים מסוימים, יחס זה נשאר קבוע פחות או יותר לאורך כל תקופת המעקב ואז החוקרים יציגו לנו אותו כהאזארד רשיו הכללי. למשל, במחקר על השפעת יתר לחץ דם ממוסך על תמותה כללית, ההאזארד רשיו (של אנשים עם יתר לחץ דם ממוסך לעומת אנשים ללא יתר לחץ דם) היה 2.8.
במצבים אחרים, בהם עקומות ההשרדות של שתי קבוצות חוצות אחת את השנייה, נוכל להבין שההאזארד רשיו אינו קבוע.
hazard
Hazard ratio (HR)
-
Relationship between Clinic and Ambulatory Blood-Pressure Measurements and Mortality
התוסף של המאמר
במחקרים בהם עוקבים אחר אנשים לאורך זמן ובודקים מתי התרחש אירוע מסויים, למשל תמותה, אפשר לשרטט את גרף האירועים המצטברים לאורך זמן, זאת אומרת איזה אחוז מהקבוצה המקורית עבר כבר אירוע בנקודת זמן כלשהי.
בכל נקודת זמן, יש גם את קבוצת האנשים שלא עברו אירוע, ואלו נקראים "השורדים". נאמר שהאירוע בו מדובר הוא תמותה. בכל נקודת זמן אחוז השרידות הוא המשלים לאחד של אחוז התמותה המצטברת. למשל, אם עד נקודה מסוימת נפטרו 2% מהקבוצה המקורית, אחוז השרידות באותה נקודה יהיה 98%. לכן, עקומת השרידות תהיה עקומה הפוכה לעקומת התמותה המצטברת, מעין תמונת ראי שלה. עקומת התמותה המצטברת תהיה גרף עולה, ועקומת השרידות, גרף יורד.
כאשר קצב האירועים (יחסית לקבוצה ממנה התחלנו!) הוא אחיד, עקומת השרידות תהיה קו ישר, אך כאשר קצב האירועים מתמתן, עקומת השרידות תהיה מעוקלת, עם "בטן" הפונה כלפי מטה.
Survival analysis
Survival curve
-
Predicting Mortality in Patients with Diabetes Starting Dialysis
מהי משמעות הקבוע והמקדמים המתקבלים ברגרסיה לוגיסטית ואיך לתרגם את המקדמים ליחסי הסיכויים
יחסי הסיכויים - odds ratio
-
ישנה דרך אחרת לבטא את נוסחת הרגרסיה הלוגיסטית שהכרנו בפרק הקודם. במקום להשתמש בחזקה שבה מספר אוילר הוא הבסיס, והתוצאה היא האודס, מבצעים לוג על שני הצדדים ומקבלים את הנוסחה הזו:
Log odds=R
כאשר "R" היא נוסחת הרגרסיה הלינארית המוכרת והלוג הוא על בסיס e.
כך שאם ברגרסיה הלינארית הצבנו את הקבוע והמקדמים בצורה שתתן לנו ערך, כאן מתקבל לנו ה log odds, ולכן logistic
logistic regression
מספר אוילר- e
-
Predicting Mortality in Patients with Diabetes Starting Dialysis
איך בנויה נוסחת הרגרסיה הלוגיסטית? היא משתמשת באותה נוסחה לינארית שהכרנו, אך התוצאה שלה צריכה לייצג סבירות. את זה הנוסחה עושה בעזרת שימוש בשני טריקים מתמטיים. הראשון הופך את התוצאה לכזו שתמיד תהיה חיובית- הכנסת הנוסחה כמעריך של חזקה. השני מאפשר להשתמש בתוצאה גם כשהיא גדולה מאחד: התוצאה מתקבלת בצורת odds במקום כ risk.
Logistic regression formula
Logistic regression coefficients
-
West Nile Virus Disease: A Descriptive Study of 228 Patients Hospitalized in a 4-County Region of Colorado in 2003
ברגרסיה לוגיסטית הערך החזוי אינו מספר אלא סיכוי. למשל, באנשים עם מעורבות מוחית של קדחת הנילוס המערבי, מה הסיכוי לתמותה. כמו ברגרסיה לינארית, מדובר במצבים בהם אנחנו רוצים לבחון כמה משתנים מסבירים בבת אחת כדי לחזות משתנה (חזוי) אחד. אך כאן המשתנה החזוי הוא קטגוריאלי. למשל, נפטר או לא נפטר. דרך פשוטה להסביר רגרסיה לוגיסטית, היא שהיא מאפשרת לנו לבצע תחזית בעזרת סיכוי בסיסי מסויים, המוכפל ביחסי סיכויים. הסיכוי כאן מוגדר כ odds ולא כ risk.
אם ברגרסיה הלינארית עסקנו בחיבור של מכפלות כדי לקבל ערך מספרי, כאן עוסקים בכפל של מכפלות כדי לקבל odds לאירוע.
בהמשך נסביר את נוסחת הרגרסיה בצורה מדויקת יותר, אך בינתיים אפשר להבינה כך: קבלת נוסחת הרגרסיה בעזרת המחקר מאפשרת לחשב את ה odds החזוי, כיוון שהיא מספקת odds בסיסי, וכן odds ratio מסויים עבור כל אחד מהמשתנים. למשל, במחקר שהוזכר בפרק, עבור דיכוי חיסוני , ה OR לתמותה היה 26. לכן, כאשר יש דיכוי חיסוני, ה odds לתמותה מוכפל ב 26.
Logistic regression
Odds
Odds ratio=OR
Multivariate analysis
-
The Mortality of Doctors in Relation to Their Smoking Habits
כדי להבין רגרסיה לוגיסטית נצטרך להבהיר שני מושגים.
Odds
המונח "אודס" הוא דרך לבטא סיכון או סיכוי לאירוע מסוים. בכך הוא דומה מאוד לסיכון ("ריסק"). הוא מציין חלוקת שני מספרים: אלו עם האירוע חלקי אלו ללא האירוע, לדוגמה מספר האנשים שנפטרו חלקי מספר האנשים שלא נפטרו. בניגוד לסיכון, "ריסק", שיכול לקבל רק ערכים קטנים מ 1, אודס יכול להיות כל מספר חיובי. כאשר מדובר באירועים נדירים, האודס והריסק יהיו קרובים מאוד. (סליחה על הכיתוב באינגליש, אך האתר מסדר מלים באנגלית מחוץ לשורה) אך באירועים נפוצים הם יהיו שונים מאוד.
Odds ratio
אם יש לנו שתי קבוצות ובכל אחת מצאנו מהו ה"אודס", נוכל לבצע חלוקה בין שני אלו ולקבל את היחס ביניהם. זהו האודס רשיו, יחס הסיכויים. כאשר מדובר באירועים נדירים, יחס זה יהיה קרוב ל"רלטיב ריסק", יחס הסיכונים.
האודס מאפשר לעשות פעולות שלא ניתן לבצע עם ריסק, כיוון שתמיד יהיה אפשר להכפיל אודס באודס רשיו ולקבל אודס חדש. למשל, אם ידוע לנו מהו האודס לסרטן ריאה במעשנים קלים יחסית, נוכל להכפיל את האודס הזה באודס רשיו שחושב עבור עישון כבד ולקבל את האודס (הסיכוי) לסרטן ריאה במעשנים כבדים.
Odds
Odds ratio
Risk
Relative risk
-
Associations of Amyloid Burden, White Matter Hyperintensities, and Hippocampal Volume With Cognitive Trajectories in the 90+ Study
רגרסיה לינארית מצריכה קשר לינארי בין המשתנה המסביר למשתנה החזוי. מה קורה כאשר לא זה המצב?
ניתן לבצע טרנספורמציה (ביטוי מחדש) לאחד המשתנים, כפי שהסברנו בפרק "ביטוי מחדש"
ואז להכניס את המשתנה (לאחר הביטוי מחדש שלו) לנוסחת הרגרסיה. לכן לעתים כאשר נקרא מאמר שהשתמש ברגרסייה לינארית, ניתקל במושג טרנספורמציה. שיטה זו מקובלת ורצויה אך גוזלת מאתנו הקוראים את הבנת המשמעות הקלינית של מקדם הרגרסיה.
linear regression
log-transformation
assumptions
-
Prediction Factors in the Determination of Final Height in Subjects Born Small for Gestational Age
רגרסיה לינארית מנסה לחזות עבור משתתפי המחקר מהו ערך המשתנה החזוי אצלם, בעזרת המשתנים המסבירים. עד כמה היא עושה את זה טוב? מדד פשוט הוא היחס בין השונות של המשתנה החזוי המוסברת על ידי נוסחת הרגרסיה, חלקי השונות הכללית של אותו משתנה חזוי. זהו ערך ה R בריבוע.
R squared
Total variation
Variation explained by the regression
Overfitting
-
Prediction Factors in the Determination of Final Height in Subjects Born Small for Gestational Age
ברגרסיה לינארית מרובה, תוצאת המחקר היא נוסחת רגרסיה עם מקדמים. אותם מקדמים הם הדבר שמעניין אותנו, כיוון שהם יראו לנו מהי השפעת משתנה מסוים, כששאר המשתנים נשארים קבועים. כאשר מדברים על תיקון (adjustment) למשתנים נוספים או שליטה (control) עליהם, הכוונה היא חישוב מקדם הרגרסיה של המשתנה שמעניין אותנו כאשר הרגרסיה כוללת גם את המשתנים הנוספים האלו.
מקדם הרגרסיה ברגרסיה לינארית אומר בכמה יחידות יעלה המשתנה החזוי כאשר יש עלייה של יחידה אחת במשתנה המסביר. אך כאשר יש משתנה מסביר קטגוריאלי (שהוא לא כמותי ולכן אין לו יחידות), צריך למצוא פתרון כדי לתת למשתנה הזה ערך מספרי. קטגוריה אחת בדרך כלל תקבל את הערך 0, וקטגוריה שניה את הערך 1, וערכים אלו יוכפלו במקדם. לכן עבור משתנה קטגוריאלי מקדם הרגרסיה אומר לנו בכמה יחידות יעלה המשתנה החזוי אצל משתתף בקטגוריה 1 יחסית למשתתף בקטגוריה 0 כאשר כל שאר המשתנים נשארים קבועים.
R squared in linear regression
Regression coefficients
Controlling/adjusting for other variables
-
ברגרסיה לינארית מרובה יש יותר ממשתנה מסביר אחד, ולעתים קרובות משתנים מסבירים מרובים. כל משתנה מסביר מקבל מקדם משלו בנוסחת הרגרסיה, ואותו מקדם מייצג את השפעת אותו משתנה על המשתנה המוסבר, לו היינו שולטים על כל שאר המשתנים האחרים ("מנטרלים" אותם). מבחינת תיאור גרפי, המעבר מרגרסיה לינארית פשוטה לרגרסיה עם שני משתנים מסבירים דורש מעבר מקו על דף למרחב תלת ממדי, והמעבר לרגרסיה עם יותר משני משתנים מסבירים ניתן לדמיון רק בעולם בעל ממדים מרובים.
Multiple linear regression
Regression coefficients
Controlling for other variables
-
Effects of Exposure to Road, Railway, Airport and Recreational Noise on Blood Pressure and Hypertension
קו הרגרסיה הלינארית הוא קו ישר שמייצג "דרך אמצע" ולא ייצוג מדוייק של קשר בין שני משתנים, אלא רק תיאור מקורב של הקשר הלינארי ביניהם. עבור משתתף בודד במחקר, הערך של המשתנה המוסבר לא ייפול בדיוק על קו הרגרסיה, כיוון שמלבד המשתנה המסביר ישנם תמיד עוד גורמים מסבירים וגם מרכיב של אקראיות. במלים אחרות, עבור אותו ערך של המשתנה המסביר, אצל שני משתתפים שונים במחקר הערך של המשתנה המוסבר יהיה שונה. למשל, גם לאחר קבלת קו הרגרסיה הלינארית המסבירה בעזרת רמת רעש באזור המגורים את לחץ הדם הדיאסטולי, אצל כל משתתף נותרת שארית, residual, בין המדידה של לחץ הדם אצלו לבין הערך שהיה צפוי אצלו לפי קו הרגרסיה. כדי שקו הרגרסיה ייצג בצורה הטובה ביותר את מירב המשתתפים במחקר, הוא נבנה בצורה כזו שתצמצם ככל האפשר את אותן שאריות, את ה residuals. הדרך המקובלת לעשות זאת היא על ידי מציאת הקו עבורו סכום ריבועי השאריות הוא הנמוך ביותר.
regression line
least squares
residuals
-
Effects of Exposure to Road, Railway, Airport and Recreational Noise on Blood Pressure and Hypertension
משוואת קו ישר מייצגת קשר בין שני משתנים. הקשר הזה מבוטא בעזרת מקדם (המספר בו מוכפל המשתנה הראשון) ועוד קבוע. ברגרסיה לינארית, המקדם נקרה "בטא". הערך של המקדם הזה תלוי גם בעצמה של הקשר בין שני המשתנים וגם בקנה המידה שבו מדדו את המשתנים עצמם.
Y=mX+n
ובצורה המקובלת לכתיבה ברגרסיה לינארית
Y=beta(X)+beta 0
Simple linear regression
Beta (regression coefficient)
-
בפרקים הקודמים דברנו גם על תפקידי הרגרסיה וגם על נוסחת הרגרסיה. בפרק זה ננסה לחבר בין שניהם ולהבין איך נוסחת רגרסיה עוזרת להבין השפעה של מאפיין מסוים של מטופל, בעזרת המקדם שאותו מאפיין מקבל בנוסחה, איך היא עוזרת לנטרל ערפלנים, כאשר מכניסים לנוסחה משתנה שהוא ערפלן, ואיך היא יכולה לעזור לחיזוי עבור מטופל מחוץ למחקר.
Regression formula/equation- נוסחת הרגרסיה
Confounder- ערפלן
Prediction- חיזוי
-
בחיים הרגילים, המח שלנו מבצע משהו קצת דומה לרגרסיות, בפעולה של חישובים ותחזיות. הוא מתחשב במשתנים שונים, שכל אחד מהם מקבל חשיבות שונה. למשל, יכול להיות שהמשתנה "כמות האננסים" יקבל חשיבות שונה מ"כמות המלפפונים" כאשר אנחנו חוזים את התשלום הסופי בקופה אצל הירקן. המח מעריך את החשיבות (מקדם) של כל אחד מהמשתנים, ומבצע תחזית של הסכום הסופי. זו פעולה מוחית שדומה לרגרסיה לינארית. אפשר לחשוב על פעולה מוחית שדומה לרגרסיה לוגיסטית: איך העונה, כיסוי העננים בשמיים ומה שקרה אתמול עוזר לנו לחיזוי הסיכוי לגשם היום, ועל פעולה מוחית דומה לרגרסיית קוקס: איך סוג המכונית, כמות העליות הצפויה בדרך והמהירות בעליה יעזרו לנו לחזות את קצב צריכת הדלק.
-
(וגם: מפת דרכים לפרקים הבאים)
בנוסחאות הרגרסיה מאפיינים שונים של המשתתפים במחקר מקבלים חשיבות שונה. המאפיינים נקראים "משתנים", והחשיבות נקראת "מקדם". הרעיון המרכזי בנוסחה הוא שערך של משתנה מוכפל במקדם שלו, למשל, המשקל בק"ג מוכפל במקדם מסויים, וכאשר מבצעים את זה עבור כמה משתנים ואז מסכמים את התוצאות מקבלים מספר שהוא בסיס לחיזוי. עם המספר הזה אפשר לעשות כל מיני דברים שנציג בפרקים הבאים- למשל להוסיף לו קבוע מסוים, ולקבל תחזית למשתנה כמותי כמו לחץ הדם סיסטולי של מטופל. נוסחת הרגרסיה מופקת מתוך מחקר, והעיקר בה, השונה מנוסחאות רגרסיה אחרות, הוא המקדמים. בעזרת נוסחה זו אפשר לבצע תחזית: לקחת מאפיינים של משתתף במחקר, כמו המשקל והגיל, ולחזות מה יהיה לחץ הדם הסיסטולי שלו. במקרה של רגרסיה לוגיסטית או רגרסיית קוקס, נצטרך להפוך את המספר את אותו מספר (סכום המכפלות של המקדמים וערכי המשתנים) לסיכוי או לקצב. בהמשך הפרקים נסביר איך זה מתבצע. נדגיש כבר עכשיו שנוסחת הרגרסיה מייצרת תחזית, אך זוהי תחזית שאינה מדויקת.
בפרק הזה נסביר גם מה הולך לקרות בפרקים הבאים. מעין מפת דרכים להמשך. כדי לדבר על רגרסיות נצטרך לבנות את ההבנה בהדרגה ולהסתכל עליהן מכיוונים שונים. תחילה נבין באופן כללי ופשטני את נוסחת הרגרסיה, זו המשותפת לכמה סוגי רגרסיות, אחר כך נבין איך הנוסחה הזו עוזרת לרגרסיה לבצע את תפקידה. בהמשך נדבר בנפרד על שלושת סוגי הרגרסיות שכבר הזכרנו, וכל אחת מהן תדרוש פרק מבוא שיוצר בסיס להבנה של המתמטיקה שמאחורי אותה רגרסיה.
Regression
Regression coefficients- מקדמי הרגרסיה
Prediction- חיזוי
- Laat meer zien