סוגים של ניתוח סטטיסטי

תוכן עניינים

ניתוח סטטיסטי הוא דרך לפרש נתונים ולבנות ראיות כדי לתמוך בתאוריה. לפני שאתה יכול להתחיל ניתוח, חשוב לקבוע את המשתנים בשימוש. המשתנה התלוי הוא זה שנמדד, והמשתנה הבלתי תלוי הוא זה שעושים עליו מניפולציה. ישנם מספר סוגים של ניתוחים סטטיסטיים.

סטטיסטיקה אסוציאטיבית היא סוג של ניתוח סטטיסטי

סטטיסטיקה אסוציאטיבית משתמשת בתאוריה של קורלציה ורגרסיה כדי להסיק מסקנות על קבוצת נתונים. הוא קובע האם למשתנה אחד יש קשר לאחר על ידי מדידת הקשר בין שני משתנים. זה דורש תוכנה מתוחכמת וחישובים מתמטיים ברמה גבוהה. הוא משתמש במגוון רחב של מקדמים שונים כדי למדוד אסוציאציות.

זה מודד את הכוח או חוסר הקשר בין שני משתנים. זה נעשה בדרך כלל על ידי חישוב מקדם ההתאמה של פירסון. המקדם לוקח ערכים הנעים מ- 1 עד + 1, ומציין האם שני משתנים קשורים או לא. לפעמים, מקדם ההתאמה חזק יותר מהקשר.

באפידמיולוגיה, פסיכולוגיה ומדעי החברה, סטטיסטיקות אסוציאטיביות נפוצות. הוא יכול לסייע בקביעת מידת החשיפה לגורם סביבתי הגורם למחלה או להתנהגות מסוימת. ניתן להשתמש בו גם בתחומים אחרים. הוא שימושי במיוחד במדעי ההתנהגות, שם ניתן לנתח אסוציאציה בכמה רמות.

ניתוח סטטיסטי אינפראנציאלי (נקרא גם סטטיסטיקה אסוציאטיבית) מאפשר לחוקרים לשרטט מסקנות לגבי אוכלוסייה באמצעות דגימות. הוא גם יכול לזהות הבדלים בין קבוצות בתוך מדגם. היא גם מאפשרת לחוקרים להתאים את עצמם לשגיאות במסקנות הנובעות מקטע של אוכלוסייה. חוקרים משתמשים בבדיקות השערות סטטיסטיות כדי להעריך את הפרמטרים של קבוצות גדולות יותר ואז מגיעים במרווח ביטחון.

מודל רגרסיה ליניארי

מודל רגרסיה ליניארית (באנגלית: Linear Regression Model או בקיצור LRM) הוא שיטת ניתוח סטטיסטית נפוצה. זה כולל התאמת קו רגרסיה למערכת נתונים. תהליך ההתאמה כולל מיזעור של מונח שגיאה, המכונה e. בדרך כלל, מונח השגיאה e נמדד כסכום של שגיאות בריבוע.

LRM הוא כלי רב עוצמה לניתוח סטטיסטי שיכול לזהות ולמדוד יחסים בין משתנים. ניתן להשתמש בו במצבים רבים, כולל כדי לחזות את ערכם של משתנים תלויים ואת תלותם במשתנים בלתי תלויים אחרים. עם זאת, ההנחות שביסוד שיטה זו חייבות להיבדק כדי להבטיח את דיוק התוצאות.

לדוגמה, תן דעתך ליחסים בין בי-אם-איי לבין MUAC. משוואת המתאם הליניארי של BMI היא BMI = (ב- cm) MUAC. עבור כל יחידת גידול ב-MUAC, ה-BMI הצפוי צפוי לעלות ב-0.972 יחידות. ערך BMI יהיה 0.042 אם MUAC יהיה 0 במשתנים תלויים ובלתי תלויים.

מספר המקרים הדרושים לניתוח רגרסיה תלוי במספר המשתנים הבלתי תלויים ובהשפעות הצפויות. אם קיים קשר חזק בין שני משתנים בלתי תלויים, מדגם קטן לא יהיה מספיק כדי להראות אותו. חוקרים יכולים לתכנן את גודל המדגם שלהם בהתבסס על ציפיותיהם למקדם ההתאמה (R2) או מקדם רגרסיה (R2). בנוסף, הם צריכים לעשות לפחות פי 20 יותר תצפיות ממספר המשתנים במחקר.

רגרסיה לינארית יכולה לשמש במצבים רבים ושונים, כולל חיזוי, חיזוי והפחתת שגיאות. אנליזה מסוג זה משמשת כדי לקבוע אם המשתנים קשורים. היא גם מסייעת בהפחתת שגיאות על ידי התאמת מודלים מנבאים לנתונים הנצפים.

מבחן הסימנים של וילקוקסון.

בניתוח סטטיסטי, מבחן הסימנים של וילקוקסון משמש כדי לחקור את היחסים בין שני משתנים. זהו מבחן לא פרמטרי שמשווה את הערך הנצפה של קבוצה לערך ההנחה. משתמשים בו במצבים בהם בדיקות טי מדגם אחד אינן מתאימות. לדוגמה, ניתן להשוות את השכיחות של אי ספיקת כליות חריפה והלם זיהומי.

מבחן הסימנים של וילקוקסון הוא אחד הסוגים הרבים של מבחנים סטטיסטיים. היא מסתמכת על ההבדלים בין שתי קבוצות על מנת לקבוע אם השתיים שונות באופן משמעותי. הוא דומה לדגימות התלויות T-test ו-Mann-Whitney U-test.

מבחן הסימנים של וילקוקסון נמצא בשימוש כאשר בדיקות טי אינן מתאימות. הוא שימושי במיוחד במצבים בהם שתי אוכלוסיות אינן מעניינות. לדוגמה, ניתן להשתמש במבחן הסימנים של וילקוקסון כדי לקבוע אם הערך החציוני באחת הקבוצות גבוה מהשנייה.

אתה יכול לבצע את מבחן הסימנים של וילקוקסון באמצעות גיליון אלקטרוני או תוכנת ניתוח סטטיסטי. עם זאת, זה לא מומלץ לכל סוגי הנתונים, ויש כמה מגבלות. מבחן וילקוקסון החתום בדרגה אינו סימטרי והוא מפר את ההנחה של התפלגות נורמלית. חלופה טובה יותר היא מבחן הסימנים, שמשתמש בסט נתונים מדגם אחד.

השערת האפס דורשת שלכל דגימות המידע יש את אותו גודל המדגם וחציון האוכלוסיה. אם השערת האפס נדחית, זה מצביע על כך שההתפלגויות של שתי הדגימות שונות. כתוצאה מכך, גודל המדגם בכל דגימת מידע חייב להיות גדול מ-20.

בדיקות לא פרמטריות

מבחנים פרמטריים ולא פרמטריים הם שני סוגים שונים של מבחנים סטטיסטיים. בדיקות פרמטריות מניחות הנחות מסוימות לגבי גודל המדגם ונתוני הדגימה, בעוד שבדיקות לא פרמטריות לא. לכן הם קלים יותר לשימוש ומתאימים יותר לנתונים שאינם רגילים. בדיקות אלה בדרך כלל יש כוח נמוך יותר ממקביליהם פרמטריים.

ההבדל העיקרי בין בדיקות פרמטריות ולא פרמטריות הוא שבדיקות פרמטריות דורשות מידע שמופץ בדרך כלל. מבחנים שאינם פרמטריים, לעומת זאת, אינם מניחים הנחה זו ובמקום זאת משווים סכומי דרגה. בדיקות אלו שימושיות כאשר הנתונים אינם עוקבים אחר ההתפלגות הנורמלית וההשערה אינה מתאימה להתפלגות הנתונים.

בדיקות לא פרמטריות עובדות הכי טוב כאשר גודל המדגם של המחקר הוא קטן. עם זאת, אם המחקר גדול מספיק, ניתן להשתמש במבחן שאינו פרמטרי כדי לזהות הבדלים בין קבוצות. זה פחות יעיל, אבל זה עדיין יכול להיות שימושי בקביעת משמעות סטטיסטית של הנתונים שלך.

בדיקות לא פרמטריות משתמשות בחציון כדי לזהות הבדלים במערכות נתונים. חציוני יכול לייצג טוב יותר את מרכז ההתפלגות מאשר ממוצע, ולכן מתאים יותר כאשר גדלי המדגם קטנים. בנוסף, בדיקה לא פרמטרית יכולה להפחית את הסיכוי להשפעה משמעותית בדגימות קטנות.

כדי להעריך את ערך ההשקעה בסיכון, ניתן להשתמש בהליך בדיקה דו-מדגמי שאינו פרמטרי. האנליסט אוסף נתוני רווחים מהשקעות אחרות שיש להם מסגרות זמן דומות כדי לקבוע את הערך בסיכון. האנליסט משתמש בהיסטוגרמה להערכת חלוקת הרווחים. לאחר מכן הוא מחשב ערך VaR שאינו פרמטרי.

ניתוח סטטיסטי סיבתי

ניתוח סטטיסטי סיבתי הוא טכניקה החוקרת את הגורמים לאירועים מסוימים. הוא משתמש במידע ממקורות רבים כדי לקבוע את הסיבה לתופעה. כלי תוכנה סטטיסטיים רבים זמינים לתמיכה בשיטות שונות של ניתוח סטטיסטי סיבתי. תוכניות אלה משמשות בעיקר על ידי מדעני נתונים ומתמטיקאים. תוכניות אלו מציעות תכונות ספציפיות לתעשייה בנוסף ליכולות ניתוח סטטיסטיות. בואו נסתכל לעומק על כמה מהשיטות הפופולריות ביותר לניתוח סטטיסטי סיבתי.

הסקה סיבתית יכולה להיות תהליך מסובך. שאלת הסיבתיות מתעוררת כאשר מתגלים שני משתנים אקראיים. אבל סיבתיות לא בהכרח מרמזת ששני המשתנים הם סיבתיים. לפעמים זה רק עניין של זיהוי הסיבות שלהם. הסקה סיבתית יכולה להיות קשה כאשר זה המקרה.

מודל סיבתי הוא מודל מתמטי המבטא את היחסים הסיבתיים בין שני משתנים. מודל זה מיוצג לעיתים קרובות על ידי מודל משוואה מבנית. המודל יכול להיות מרכיבים רבים וכולל מונח רעש בסיסי. המודל עשוי לכלול גם משתנים לא מדודים, שבדרך כלל מודגמים כמשתנים סמויים. למרות מגבלות אלו, ניתן לייצג מודל סיבתי באמצעות רשת. כל משתנה מיוצג כצומת. לאחר מכן, החצים מחברים בין הגורמים להשפעות.

ניתוח סטטיסטי סיבתי יכול להתבצע במגוון שיטות. זה כרוך ביצירת מודל ומציאת סיבות לתוצאות שונות. מודל מבני יכול לשמש כדי לקבוע את היחס הסיבתי בין שני משתנים, למשל, אם יש קשר סיבתי בין אירוע לבין משתנה SES מסוים. בהתאם למודל הסטטיסטי, המודל יכול לכלול מספר תוצאות, וכל משתנה אנדוגני עשוי להיות תלוי במשתנה אנדוגני אחר.