👈 فروشگاه فایل 👉

پایان نامه Data Mining

ارتباط با ما

... دانلود ...

پایان نامه Data Mining

پایان نامه Data Mining

پایان نامه Data Mining

چکیده:

در دو دهه قبل توانایی­های فنی بشربرای تولید و جمع­آوری داده‌ها به سرعت افزایش یافته است. عواملی نظیر استفاده گسترده از بارکد برای تولیدات تجاری، به خدمت گرفتن کامپیوتر در کسب­و­کار، علوم، خدمات­ دولتی و پیشرفت در وسائل جمع­آوری داده، از اسکن کردن متون و تصاویر تا سیستمهای سنجش از دور ماهواره­ای، در این تغییرات نقش مهمی دارند.

بطور کلی استفاده همگانی از وب و اینترنت به عنوان یک سیستم اطلاع رسانی جهانی ما را مواجه با حجم زیادی از داده و اطلاعات می‌کند. این رشد انفجاری در داده‌های ذخیره شده، نیاز مبرم وجود تکنولوژی­های جدید و ابزارهای خودکاری را ایجاد کرده که به صورت هوشمند به انسان یاری رسانند تا این حجم زیاد داده را به اطلاعات و دانش تبدیل کند. داده­کاوی به عنوان یک راه حل برای این مسائل مطرح می باشد. در یک تعریف غیر رسمی داده­کاوی فرآیندی است، خودکار برای استخراج الگوهایی که دانش را بازنمایی می­کنند، که این دانش به صورت ضمنی در پایگاه داده­های عظیم، انباره­داده[1] و دیگر مخازن بزرگ اطلاعات، ذخیره شده است.

به لحاظ اینکه در چند سال اخیر مبحث داده­کاوی و اکتشاف دانش موضوع بسیاری از مقالات و کنفرانسها قرار گرفته و نرم­افزار­های آن در بازار به شدت مورد توجه قرار گرفته، از اینرو در مقاله سعی بر آن شده تا گذری بر آن داشته باشیم.

[1] Data  warehouses

مقدمه

امروزه با گسترش سیستم‌های پایگاهی و حجم بالای داده‌های ذخیره شده در این سیستم‌ها، نیاز به ابزاری است تا بتوان داده‌های ذخیره شده را پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد.

با استفاده از پرسش‌های ساده در SQL و ابزارهای گوناگون گزارش‌گیری معمولی، می‌توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه‌گیری در مورد داده‌ها و روابط منطقی میان آنها بپردازند. امّا وقتی که حجم داده‌ها بالا باشد، کاربران هرچند زبر­دست و با­تجربه باشند نمی‌توانند الگوها مفید را در میان حجم انبوه داده‌ها تشخیص دهند و یا اگر قادر به این کار هم باشند، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است. از سوی دیگر، کاربران معمولاً فرضیه‌ای را مطرح می‌کنند و سپس بر­اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می‌پردازند، در حالی که امروزه نیاز به روشهایی است که اصطلاحاً به کشف دانش [1] بپردازند یعنی با کمترین دخالت کاربر و بصورت خودکار الگوها و رابطه‌های منطقی را بیان نمایند.

تعریف داده ­کاوی:

اصطلاح Data Mining همانطور که از ترجمه آن به داده­کاوی مشخص می­شود، به مفهوم استخراج اطلاعات نهان و یا الگوها و روابط مشخص در حجم زیادی از داده‌های یک یا چند بانک اطلاعاتی بزرگ است. اطلاعات استخراج شده در تعریف Data Mining بطور ضمنی به معنی اطلاعاتی است که بر اساس آن بتوان به نتایجی دست یافت که بطور معمول ملموس نیستند. در این تعریف بر بزرگ بودن بانکهای اطلاعاتی و یا حجم زیاد داده‌های مورد پردازش تاکید می‌شود. علت این است که از نظر آماری و تئوری اطلاعات، تجزیه و تحلیل داده‌ها و یا آنطور که در این اصطلاح تعبیر می‌شود، کاوش در حجم کم داده­های یک بانک به نتایج قابل قبولی منجر نمی‌شود. به کمک ابزارهای Data Mining می‌توان مقادیر متغیرهای را پیش­بینی و توصیف نمود. این ابزارها در فرایندهای تصمیم‌گیری متکی بر اطلاعات و دانش [1] کاربر فراوان دارند و فعالیت­های تجاری نوین و مدرن امروزه به شدت بر آن متکی است. فرایند Data Mining را نباید با روش‌های متداول آنالیز داده و اطلاعات و سیستم­های تصمیم‌گیری معمولی یکی دانست. به کمک روش‌های Data Mining می‌توان به پرسش­هایی (عمدتاً تجاری) پاسخ گفت که بطور سنتی عملاً امکان وجود ندارد.

داده­کاوی چه کارهایی نمی‌تواند انجام دهد؟

داده­کاوی فقط یک ابزار است و نه یک عصای جادویی. داده­کاوی به این معنی نیست که شما راحت به کناری بنشیند و ابزارهای داده­کاوی همه کار را انجام دهد.

داده­کاوی نیاز به شناخت داده‌ها و ابزارهای تحلیل و افراد خبره در این زمینه‌ها را از بین نمی‌برد. داده­کاوی فقط به تحلیلگران برای پیدا کردن الگوها و روابط بین داده‌‌ها کمک می‌کند و در این مورد نیز روابطی که یافته می‌شود باید بوسیله داده‌های واقعی دوباره بررسی و تست گردد.

 کاربردهای داده­کاوی

داده­کاوی بخاطر کمک‌های اساسی آن به سرعت در حال محبوبیت است.

سازمانهای زیادی در حال استفاده از داده­کاوی برای کمک به مدیریت تمام فازهای ارتباط با مشتری شامل بدست آوردن مشتریان جدید، افزایش سود از طریق مشتریان موجود و حفظ مشتریان خوب هستند. با تعیین مشخصات یک مشتری خوب یک شرکت می‌تواند با همان مشخصات اهداف آینده خویش را پیش­بینی کند. با پرونده­سازی برای مشتری که یک محصول خاص را خرید می‌نماید این شرکت می‌تواند توجه خود را به مشتریان مشابهی که از این محصول خرید نکرده‌اند معطوف دارد. با پرونده­سازی برای مشتریانی که این سازمان را ترک کرده‌اند یک شرکت می‌تواند مشتریانی را که خطر رفتن آنها وجود دارد را نگه دارد؛ چرا که نگهداری یک مشتری موجود بسیار کم هزینه­تر از بدست آوردن یک مشتری جدید است.

 

فهرست مطالب

 

فهرست اشکال   ...............................................................................................................................................

10

فهرست جداول   ..............................................................................................................................................

11

فصل1: مقدمه­ای بر داده­کاوی  ............................................................................

13

1-1تعریف داده­کاوی   ...................................................................................................................................

15

2-1تاریخچه داده­کاوی   ................................................................................................................................

16

3-1چه چیزی سبب پیدایش داده­کاوی شده است؟   ........................................................................................

17

4-1اجزای سیستم داده­کاوی   .........................................................................................................................

19

5-1جایگاه داده­کاوی در میان علوم مختلف   ..................................................................................................

21

6-1قابلیتهای داده­کاوی   .................................................................................................................................

22

7-1چرا به داده­کاوی نیاز داریم؟   ...................................................................................................................

23

8-1داده­کاوی چه کارهایی نمی­تواند انجام دهد؟   ..........................................................................................

25

9-1کاربردهای داده­کاوی   .............................................................................................................................

25

1-9-1 کاربردهای پیش­بینی­کننده   ...................................................................................................

27

2-9-1 کاربردهای توصیف­کننده   ....................................................................................................

27

10-1ابزارهای تجاری داده­کاوی   ...................................................................................................................

28

11-1داده­کاوی و انبار­داده­ها   .........................................................................................................................

29

1-11-1 تعاریف انبار­داده   ................................................................................................................

29

2-11-1 چهار خصوصیت اصلی انبار­داده   .........................................................................................

30

3-11-1 موارد تفاوت انبار­داده و پایگاه­ داده   ....................................................................................

31

12-1داده­کاوی و OLAP   ...........................................................................................................................

33

1-12-1 OLAP   ...........................................................................................................................

33

2-12-1 انواع OLAP   ...................................................................................................................

34

13-1مراحل فرایند کشف دانش از پایگاه داده­ها   ...........................................................................................

34

1-13-1انبارش داده­ها   ....................................................................................................................

35

2-13-1انتخاب داده­ها   ....................................................................................................................

36

3-13-1 پاکسازی- پیش­پردازش- آماده­سازی   ................................................................................

36

4-13-1تبدیل داده­ها   ......................................................................................................................

36

5-13-1 کاوش در داده­ها (Data Mining)   .................................................................................

37

6-13-1تفسیر نتیجه   ........................................................................................................................

38

فصل 2: قوانین ارتباطی   ...........................................................................

39

1-2قوانین ارتباطی   ........................................................................................................................................

40

2-2اصول پایه   ...............................................................................................................................................

41

1-2-2شرح مشکل جدی   ...............................................................................................................

41

2-2-2 پیمایش فضای جستجو   .........................................................................................................

43

3-2-2 مشخص کردن درجه حمایت مجموعه اقلام   .........................................................................

45

3-2الگوریتمهای عمومی   ..............................................................................................................................

45

1-3-2دسته­ بندی   ............................................................................................................................

45

2-3-2 BFS و شمارش رویداد­ها   ...................................................................................................

46

3-3-2 BFS و دونیم­سازی TID-list   ...........................................................................................

47

4-3-2 DFS و شمارش رویداد   ......................................................................................................

47

5-3-2 DFS و دو نیم­سازی TID-list  ..........................................................................................

48

4-2الگوریتمApriori   ................................................................................................................................

48

1-4-2 مفاهیم کلیدی   .....................................................................................................................

48

2-4-2 پیاده­سازی الگوریتم Apriori   ............................................................................................

49

3-4-2 معایب Apriori و رفع آنها   .................................................................................................

54

5-2 الگوریتم رشد الگوی تکرارشونده   ..........................................................................................................

55

1-5-2 چرا رشد الگوی تکرار سریع است؟   .....................................................................................

58

6-2 مقایسه دو الگوریتم Apriori و FP-growth   ......................................................................................

59

7-2تحلیل ارتباطات   ......................................................................................................................................

63

فصل 3: وب­کاوی و متن­کاوی   .................................................................

65

1-3وب­کاوی   ...............................................................................................................................................

66

1-1-3 الگوریتمهای هیتس و لاگسام   ...............................................................................................

69

2-1-3 کاوش الگوهای پیمایش مسیر   ..............................................................................................

76

2-3متن­کاوی   ...............................................................................................................................................

80

1-2-3 کاربردهای متن­کاوی   ...........................................................................................................

82

1-1-2-3 جستجو و بازیابی   ..............................................................................................

83

2-1-2-3 گروه­بندی و طبقه­بندی   ......................................................................................

83

3-1-2-3 خلاصه­سازی   ....................................................................................................

84

4-1-2-3 روابط میان مفاهیم   .............................................................................................

84

5-1-2-3 یافتن و تحلیل گرایشات   ....................................................................................

84

6-1-2-3 برچسب زدن نحوی (pos)   ...............................................................................

85

7-1-2-3 ایجاد Thesaurus و آنتولوژی به صورت اتوماتیک   .........................................

85

2-2-3فرایند متن­کاوی   ...................................................................................................................

86

3-2-3 روشهای متن­کاوی   ...............................................................................................................

87

مراجع   .....................................................................................................

89

👇محصولات تصادفی👇

پاورپوینت پردازش حقوق و دستمزد و روش دارایی های ثابت تحقیق ارگونومی و اهمیت آن در جامعه پاورپوینت بررسی اهمیت نسبی سازه های فرهنگ سازمانی در بروز اعتماد و عدالت سازمانی مقاله ی درباره بیماری های واگیردار اعتصاب ها و مذاكره