تحلیل تابع تشخیصی (DFA)

تحلیل تابع تشخیصی یا Discriminant Analysis که به تابع ممیزی DFA نیز شهرت دارد، یکی از روش های آماری چند متغیره است که در تفکیک و تشخیص طبقات یک متغیر بر اساس چند متغیر کمی به کار می رود. به عنوان مثال محققی علاقه مند به مطالعه روابط بین سه نوع شغل خدمات مشتریان، مسئولین فنی و تکنسین های توزیع در یک شرکت خدمات تلفن های همراه است.

محقق فرضیه ای مبنی بر متفاوت بودن این سه طبقه به لحاظ تیپ های شخصیتی دارد. لذا هر کارمند به طور تصادفی در سه آزمون تحرک پذیری، جامعه پذیری و محافظه کاری شرکت نموده و شغل وی نیز در این سه حیطه ثبت می شود. یا محققی در صدد این است تا متغیر های اصلی تفکیک کننده سه گونه گیاهی را شناسایی نماید. این روش را می توان با روش هایی چون رگرسیون ترتیبی و چند جمله ای مقایسه کرد.

حتما بخوانید: محاسبه تحلیل همبستگی بنیادی

این روش نسبت به روش های قبلی بر اساس شاخص های کمّی انجام می پذیرد. در این مقاله سعی می شود تا در مورد مثال اول و با داشتن داده ای فرضی کاربرد این روش کمّی در نرم افزار SAS توضیحات تکمیلی ارائه شود.

حتما بخوانید:

ابتدا دستور زیر برای ورود داده ها و بیان آماره های توصیفی را وارد پنجره دستورات می کنیم.

proc means data=’d:\data\نام فایل’ n mean std min max;
var outdoor social conservative;
run;

خروجی دستور به شرح زیر خواهد بود:

The MEANS Procedure
Variable N Mean Std Dev Minimum Maximum
OUTDOOR 244 15.6393443 4.8399326 0 28.0000000
SOCIAL 244 20.6762295 5.4792621 7.0000000 35.0000000
CONSERVATIVE 244 10.5901639 3.7267890 0 20.0000000

proc means data=’d:\data\نام فایل’ n mean std;
class job;
var outdoor social conservative;
run;

N
JOB Obs Variable N Mean Std Dev

۱ ۸۵ OUTDOOR 85 12.5176471 4.6486346
SOCIAL 85 24.2235294 4.3352829
CONSERVATIVE 85 9.0235294 3.1433091

۲ ۹۳ OUTDOOR 93 18.5376344 3.5648012
SOCIAL 93 21.1397849 4.5506602
CONSERVATIVE 93 10.1397849 3.2423535

۳ ۶۶ OUTDOOR 66 15.5757576 4.1102521
SOCIAL 66 15.4545455 3.7669895
CONSERVATIVE 66 13.2424242 3.6922397

حال دستور زیر را برای بیان همبستگی ها وارد می کنیم:

proc corr data=’d:\data\discrim’;
var outdoor social conservative;
run;

Pearson Correlation Coefficients, N = 244
Prob > |r| under H0: Rho=0

OUTDOOR SOCIAL CONSERVATIVE

OUTDOOR 1.00000 -0.07130 0.07938
0.۲۶۷۲ ۰.۲۱۶۶

SOCIAL -0.07130 1.00000 -0.23586
0.۲۶۷۲ ۰.۰۰۰۲

CONSERVATIVE 0.07938 -0.23586 1.00000
0.۲۱۶۶ ۰.۰۰۰۲

proc freq data=’d:\data\نام فایل’;
tables job;
run;

The FREQ Procedure
Cumulative Cumulative
JOB Frequency Percent Frequency Percent

1 ۸۵ ۳۴.۸۴ ۸۵ ۳۴.۸۴
2 ۹۳ ۳۸.۱۱ ۱۷۸ ۷۲.۹۵
3 ۶۶ ۲۷.۰۵ ۲۴۴ ۱۰۰.۰۰

دستور proc discrim را برای تحلیل تشخیصی وارد می کنیم.

proc candisc data=’d:\data\نام فایل’ out=discrim_out ;
class job;
var outdoor social conservative;
run;

نتیجه خروجی به شرح زیر خواهد بود.

The CANDISC Procedure

Multivariate Statistics and F Approximations

S=2 M=0 N=118.5

Statistic Value F Value Num DF Den DF Pr > F

Wilks’ Lambda 0.36398797 52.38 6 478 <.0001
Pillai’s Trace 0.76206574 49.25 6 480 <.0001
Hotelling-Lawley Trace 1.40103067 55.69 6 316.9 <.0001
Roy’s Greatest Root 1.08052702 86.44 3 240 <.0001

NOTE: F Statistic for Roy’s Greatest Root is an upper bound.
NOTE: F Statistic for Wilks’ Lambda is exact.

Adjusted Approximate Squared
Canonical Canonical Standard Canonical
Correlation Correlation Error Correlation

1 ۰.۷۲۰۶۶۱ ۰.۷۱۶۰۹۹ ۰.۰۳۰۸۳۴ ۰.۵۱۹۳۵۳
2 ۰.۴۹۲۶۵۹ . ۰.۰۴۸۵۸۰ ۰.۲۴۲۷۱۳

Test of H0: The canonical correlations in the
Eigenvalues of Inv(E)*H current row and all that follow are zero
= CanRsq/(1-CanRsq)
Likelihood Approximate
Eigenvalue Difference Proportion Cumulative Ratio F Value Num DF Den DF Pr > F

1 ۱.۰۸۰۵ ۰.۷۶۰۰ ۰.۷۷۱۲ ۰.۷۷۱۲ ۰.۳۶۳۹۸۷۹۷ ۵۲.۳۸ ۶ ۴۷۸ <.0001
2 ۰.۳۲۰۵ ۰.۲۲۸۸ ۱.۰۰۰۰ ۰.۷۵۷۲۸۶۸۱ ۳۸.۴۶ ۲ ۲۴۰ <.0001

دو تابع تشخیصی در این رابطه استخراج می شود که ضریب اولیه ۷۲/۰ و ضریب ثانویه ۴۹/۰ محاسبه شده است.

Standardized canonical discriminant function coefficients

Pooled Within-Class Standardized Canonical Coefficients

Variable Can1 Can2

OUTDOOR -.3785725108 0.9261103825
SOCIAL 0.8306986150 0.2128592590
CONSERVATIVE -.5171682475 -.2914406390

Pooled Within Canonical Structure

Variable Can1 Can2

OUTDOOR -0.323098 0.937215
SOCIAL 0.765391 0.266030
CONSERVATIVE -0.467691 -0.258743

این ضرایب استاندارد شده را می توان مشابه ضرایب بتای رگرسیون دانست. به عنوان مثال با افزایش یک واحد انحراف استاندارد در متغیر تحرک پذیری ۳۲/۰ کاهش انحراف استاندارد در تابع اولیه ممیزی دارد. بار تشخیصی و بار کانونی را می توان به عنوان ضرایب جایگرین این تابع دانست. این روش به لحاظ نوع برخورد با متغیر های پنهان با روش تحلیل عاملی قابل قیاس است. در مورد سایر ضرایب نیز تفسیری مشابه وجود دارد.

Class Means on Canonical Variables

JOB Can1 Can2

1 ۱.۲۱۹۱۰۰۱۸۶ -۰.۳۸۹۰۰۳۸۶۴
2 -۰.۱۰۶۷۲۴۶۳۷ ۰.۷۱۴۵۷۰۴۴۱
3 -۱.۴۱۹۶۶۸۵۵۵ -۰.۵۰۵۹۰۴۸۸۸

Number of Observations and Percent Classified into JOB

From
JOB 1 2 3 Total

1 ۶۹ ۱۲ ۴ ۸۵
81.۱۸ ۱۴.۱۲ ۴.۷۱ ۱۰۰.۰۰

2 ۱۷ ۶۴ ۱۲ ۹۳
18.۲۸ ۶۸.۸۲ ۱۲.۹۰ ۱۰۰.۰۰

3 ۳ ۱۰ ۵۳ ۶۶
4.۵۵ ۱۵.۱۵ ۸۰.۳۰ ۱۰۰.۰۰

Total 89 86 69 244
36.۴۸ ۳۵.۲۵ ۲۸.۲۸ ۱۰۰.۰۰

در این قسمت خروجی میانگین توابع تشخیصی برای هر یک از گروه های سه گانه آورده شده است. مقادیر مندرج در قطر این خروجی به معنای طبقه بندی صحیح هر یک از افراد در گروه های مربوطه است.

برای دیدن چارت مربوطه از ماکروی زیر استفاده می شود.

proc format;
value jobname
1=’C ‘
2=’M ‘
3=’D ‘;
run;

data discrimplot;
set discrim_out;
format job jobname.;
run;

symbol1 interpol=none font=’Times-Roman’ pointlabel=(“#job”) height=1;

proc gplot data=discrimplot;
plot Can2*Can1=job / haxis=axis1;
run;

با دریافت « مشاوره برنامه‌نویسی، وب و سئو » از کارشناسان جوان حرفه‌ای و باتجربه ساکوراد؛ موفقیت کسب و کار، رونق فروش و افزایش درآمد خود را تضمین کنید!

و اما کلام آخر…

تحلیل تابع تشخیصی ابزاری قدرتمند برای محققان است که به آن‌ها کمک می‌کند تا روابط پیچیده بین داده‌ها را شناسایی کرده و تصمیمات مبتنی بر داده اتخاذ کنند.