رگرسیون خطی یک روش آماری است که برای مدلسازی رابطه بین یک متغیر وابسته و یک یا چند متغیر مستقل به کار میرود.
نرم افزار SAS به عنوان قویترین نرم افزار آماری مورد استفاده در بین محققان، کامل ترین روش محاسبه رگرسیون خطی را ارائه می دهد که محقق میتواند با توجه به نیاز خود از آن استفاده کند. نرم افزار SAS دارای محیط برنامه نویسی بسیار پیشرفته و کاملی است که تمام نیاز های آماری محققان را در سطوح مختلف برآورده می کند. در این نوشتار از ارائه فرمول ها پرهیز شده و سعی بر ارائه یک راهنمای کاربردی برای استفاده از این روش آماری در نرم افزار SAS بود.
انجام رگرسیون خطی چندگانه دارای پیش فرض هایی است که باید این قواعد را برای کسب نتیجه بهینه مورد توجه قرار داد. استقلال مشاهدات، ساختار کوواریانس عمومی در بین مشاهدات، همگونی واریانس های وضعیت خطاها بر متغیر های پیش بین و نرمال بودن توزیع چند متغیره باقیمانده ها. در مورد نرمال بودن توزیع چند متغیره، در نرم افزار هایی چون SAS و SPSS آزمون خاصی ارائه نمی شود و صرفا از طیق اسکتر پلات ها نحوه توزیع باقیمانده و نرمال بودن آن مورد قضاوت قرار می گیرد.
حتما بخوانید: محاسبه رگرسیون ترتیبی
در مورد همگونی واریانس های وضعیت خطاها بر متغیر های پیش بین، با توجه به اینکه اکثر ازمون های ارائه شده به نرمال بودن توزیع وابسته هستند؛ برای این منظور نرم افزار SAS از آماره F برای برازش کلی مدل رگرسیونی استفاده می کند. معنی داری آزمون F به معنای تحقق این پیش فرض رگرسیون خطی چند گانه است. برای آزمون هم خطی در رگرسیون از مقدار تولرانس یا تورش واریانس استفاده می شود که به این معنا است که اطلاعات هر متغیر پیش بین وارد شده به مدل تا چه حد توسط سایر متغیرهای مستقل قابل برآورد بوده است.
برای این منظور بایدبه شاخص شرایط استناد نمود که باید مقدار آن زیر 15 برای مدل های خوب باشد و تا 30 قابل تحمل است لیکن مقادیر کمتر آن به معنای اعتبار بیشتر ضریب تعیین است. برای بررسی استقلال خطاها از یکدیگر نیز از آزمون دوربین واتسون استفاده می شود که باید بین 5/1 تا 5/2 باشد.
در اینجا هدف بررسی حل یک مثال واقعی با نرم افزار SAS است. در نظر بگیرید محققی علاقه مند است تا بداند در دفعات مشاهده و یادآوری یک تیزر تلویزیونی، نقش متغیر هایی چون آشکار بودن پیام آن، منطقی بودن عناصر به کار گرفته شده در ساخت آن، و میزان رعایت قواعد ساخت تیزر، چگونه است. به این منظور پس از یک ماه از پخش تیزر مورد مطالعه، بر اساس نمونه گیری در دسترس تعدادی از مخاطبان کلیدی آن را انتخاب نموده و در مورد این چهار عنصر نظر خواهی و امتیازاتی که افراد می دهند را ثبت می کند.
در این تحقیق دو متغیر دفعات مشاهده و یادآوری یک تیزر تلویزیونی به عنوان متغیر های وابسته و آشکار بودن پیام آن، منطقی بودن عناصر به کار گرفته شده در ساخت آن، و میزان رعایت قواعد ساخت تیزر، به عنوان متغیر های مستقل مورد مطالعه قرار گرفتند.
از نرم افزار SAS نسخه 9 در این مثال استفاده شده است. این نرم افزار دارای پنجره های متعددی است که مهمترین آنها پنجره ادیتور است. در این پنجره این دستور را وارد کنید. فراموش نکنید که فرمت دستور باید عینا مانند دستور زیر وارد شود. بهتر است ابتدا داده ها را در نرم افزاری مثل excel وارد نموده و سپس فایل آنها را در نرم افزار Import نموده و از پنجره Explorer آن را مشاهده کنید. همانطور که در دستور زیر مشخص شده است، فایل از مسیر مشخص شده می تواند خوانده شود.
proc reg data = “L:\datareg”;
model read socst = write math science / COLLIN DWPROBE;
write: mtest read- socst, write / details print;
science: mtest read – socst, science / details print;
run;
quit;
حال از منوی Run گزینه Submit را انتخاب کنید تا خروجی نرم افزار در پنجره Output ظاهر شود.
همانطور که برای اولین متغیر وابسته نشان میدهد آزمون F معنی دار است لذا برازش کلی مدل رگرسیونی و میزان باقیمانده های مدل در حد قابل قبولی است. با استناد به این آماره می توان معتبر بودن نتایج را اثبات نمود.
همچنین میزان واریانس تبیین شده یا R-Square برابر 54 درصد است یعنی با مدل ارائه شده می توان تا 54 درصد از تغییرات متغیر وابسته دفعات مشاهده توسط یک فرد را پیش بینی نمود.
بر این اساس مشخص شده است که هر سه متغیر مستقل وارد شده در مدل نیز دارای مقدار t معنی دار هستند لذا هر سه متغیر مستقل وارد شده در مدل از توان لازم برای پیش بینی تغییرات متغیر وابسته بر خوردار هستند. لذا می توان هر سه متغیر را به لحاظ اهمیت در پیش بینی متغیر وابسته، مهم قلمداد نمود. به عبارت دیگر می توان گفت که معادله پیش بینی دفعات مشاهده تیزر به عوامل زیر وابسته است:
Y=4.36+.23X1+.37X2+.29X3
لذا مشخص بودن وضعیت متغیر های مستقل تحقیق شامل آشکار بودن پیام آن، منطقی بودن عناصر به کار گرفته شده در ساخت آن، و میزان رعایت قواعد ساخت تیزر، می تواند طبق فرمول بالا تا 54 درصد تعداد دفعات دیده شدن تیزر را پیش بینی کند که با توجه به داشتن سه متغیر مستقل مقدار قابل قبولی است. لیکن محقق در این مرحله باید اعتبار ضریب تعیین را نشان دهد. وضعیت همخطی در جدولی تحت عنوان Collinearity Diagnostics و در قالب مقدار Condition Index در خروجی نشان داده می شود که برای هر متغیر مستقل کمتر از 15 و در برخی منابع کمتر از 20 باشد. در صورتی که این مقدار بالای 30 باشد نشان از وجود رابطه هم خطی بین متغیر های پیش بین داشته و اعتبار کلی مدل رگرسیونی ضعیف خواهد بود. همچنین آماره دوربین واتسون هم باید در محدوده 2.5 تا 1.5 قرار داشته باشد.
برای دومین متغیر وابسته یعنی میزان یادآوری یک تیزر تلویزیونی، نیز محاسبات در خروجی نشان داده شده است. که عینا مانند خروجی مدل اول تفسیر می شود. به عنوان مثال این مدل دارای ضریب R-Square برابر 41 درصد می باشد که نشان می دهد با مدل ارائه شده تا 41 درصد متغیر وابسته میزان یادآوری یک تیزر تلویزیونی قابل پیش بینی است.
برای این متغیر وابسته نیز نتایج رگرسیون نشان می دهد دو متغیر آشکار بودن پیام آن و منطقی بودن عناصر به کار گرفته شده در ساخت آن در میزان یادآوری تیزر اهمیت اساسی دارند و متغیر میزان رعایت قواعد ساخت تیزر، در میزان یادآوری نقش پیش بینی کننده ندارد زیرا مقدار Parameter Estimate محاسبه شده برای آن دارای مقدار t بی معنی است. بر این اساس معادله میزان یادآوری به این شکل خواهد بود:
Y=8.86+.46X1+.27X2
لذا در صورتیکه هنگام ساخت یک تیزر نمره دو متغیر آشکار بودن پیام آن و منطقی بودن عناصر به کار گرفته شده در ساخت آن توسط ارزیاب مشخص شود می توان تا 41 درصد تغییرات میزان یادآوری آن را پیش از پخش طبق معادله فوق برآورد نمود. برای هر دو معادله شاخص های چند متغیره برازش مناسب بوده و نشان از اعتبار یافته های آنها دارد زیرا که مقدار F برای هر چهار شاخص معنی دار گزارش شده است.
در صورت نیاز به دیدن نحوه پراکنش متغیر ها در قالب اسکری پلات کافی است دستور زیر را قبل از کلمه Run در دستور برنامه نویسی فوق برای متغیرهای مورد نظر به شکل دو به دو وارد کنید:
plot (read socst)* (write math);
با دریافت « مشاوره برنامهنویسی، وب و سئو » از کارشناسان جوان حرفهای و باتجربه ساکوراد؛ موفقیت کسب و کار، رونق فروش و افزایش درآمد خود را تضمین کنید!
و اما کلام آخر…
رگرسیون خطی ابزاری قدرتمند برای تحلیل دادهها و پیشبینی نتایج است که به محققان و تحلیلگران کمک میکند تا روابط پیچیده بین متغیرها را شناسایی کنند و تصمیمات بهتری اتخاذ نمایند.