فایل pdf
100 صفحه
مهندسی نرم افزار
پروژه داده کاوی، مفاهیم و کاربردها
فایل pdf
100 صفحه
مهندسی نرم افزار
فهرست
مقدمه. 4
عناصر داده کاوی.. 10
پردازش تحلیلی پیوسته: 11
قوانین وابستگی: 12
شبکه های عصبی : 12
الگوریتم ژنتیکی: 12
نرم افزار 13
کاربردهای داده کاوی.. 13
داده کاوی و کاربرد آن در کسب و کار هوشمند بانک.... 15
داده کاوی درمدیریت ارتباط بامشتری.. 16
کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی.. 17
مدیریت موسسات دانشگاهی.. 19
داده کاوی آماری و مدیریت بهینه وب سایت ها 21
داده کاوی در مقابل پایگاه داده Data Mining vs database. 22
ابزارهای تجاری داده کاوی.. 23
منابع اطلاعاتی مورد استفاده 24
انبار داده 24
مسائل کسب و کار برای دادهکاوی.. 26
چرخه تعالی داده کاوی چیست؟. 27
متدلوژی دادهکاوی و بهترین تمرینهای آن.. 31
یادگیری چیزهایی که درست نیستند. 32
الگوهایی که ممکن است هیچ قانون اصولی را ارائه نکنند. 33
چیدمان مدل ممکن است بازتاب دهنده جمعیت وابسته نباشد. 34
ممکن است داده در سطح اشتباهی از جزئیات باشد. 35
یادگیری چیزهایی که درست ولی بلااستفادهاند. 37
مدلها، پروفایلسازی، و پیشبینی.. 38
پیش بینی.. 41
متدلوژی.. 42
مرحله 1: تبدیل مسئله کسب و کار به مسئله دادهکاوی.. 43
مرحله 2: انتخاب داده مناسب... 45
مرحله سوم: پیش به سوی شناخت داده 48
مرحله چهارم: ساختن یک مجموعه مدل.. 49
مرحله پنجم: تثبیت مسئله با دادهها 52
مرحله ششم: تبدیل داده برای آوردن اطلاعات به سطح.. 54
مرحله هفتم: ساختن مدلها 56
مرحله هشتم: ارزیابی مدل ها 57
مرحله نهم: استقرار مدل ها 61
مرحله 10: ارزیابی نتایج.. 61
مرحله یازدهم: شروع دوباره 61
وظایف دادهکاوی 62
1- دستهبندی.. 62
2- خوشهبندی.. 62
3- تخمین.. 63
4- وابستگی.. 65
5- رگرسیون.. 66
6- پیشگویی.. 67
7- تحلیل توالی.. 67
8- تحلیل انحراف... 68
9- نمایهسازی.. 69
منابع.. 70
مقدمه
از هنگامی که رایانه در تحلیل و ذخیره سازی داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پایگاه داده ها دو برابر شد. ولی پس از گذشت دو دهه و همزمان با پیشرفت فن آوری اطلاعات(IT) هر دو سال یکبار حجم داده ها، دو برابر شده و همچنین تعداد پایگاه داده ها با سرعت بیشتری رشد نمود. این در حالی است که تعداد متخصصین تحلیل داده ها با این سرعت رشد نکرد. حتی اگر چنین امری اتفاق می افتاد، بسیاری از پایگاه داده ها چنان گسترش یافتهاند که شامل چندصد میلیون یا چندصد میلیارد رکورد ثبت شده هستند.امکان تحلیل و استخراج اطلاعات با روش های معمول آماری از دل انبوه داده ها مستلزم چند روز کار با رایانه های موجود است.[3]
حال با وجود سیستم های یکپارچه اطلاعاتی، سیستم های یکپارچه بانکی و تجارت الکترونیک، لحظه به لحظه به حجم داده ها در پایگاه داده های مربوط اضافه شده و باعث به وجود آمدن انبارهای عظیمی از داده ها شده است.
این واقعیت، ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاه داده ها را بیش از پیش نمایان کرده است، چنان که در عصر حاضر گفته می شود اطلاعات طلاست.
هم اکنون در هر کشور، سازمان، شرکت و غیره برای امور بازرگانی، پرسنلی، آموزشی، آماری و غیره پایگاه داده ها ایجاد یا خریداری شده است. به طوری که این پایگاه داده ها برای مدیران، برنامه ریزان، پژوهشگران جهت، تصمیم گیری های راهبردی، تهیه گزارش های مختلف، توصیف وضعیت جاری خود و سایر اهداف می تواند مفید باشد. بسیاری از این داده ها از نرم افزارهای تجاری، مثل کاربردهای مالی، ERPها، CRMها و web log ها، می آیند. نتیجه این جمع آوری داده ها این میشود که در سازمانها، داده ها غنی ولی دانش ضعیف، است. جمع آوری داده ها، بسیار انبوه میشود و بسرعت اندازه آن افزایش می یابد و استفاده عملی از داده ها را محدود می سازد.[2]
دادهکاوی استخراج و تحلیل مقدار زیادی داده بمنظور کشف قوانین و الگوهای معنی دار در آنهاست. هدف اصلی داده کاوی، استخراج الگوهایی از داده ها، افزایش ارزش اصلی آنها و انتقال داده ها بصورت دانش است.
دادهکاوی، بهمراه OLAP، گزارشگری تشکیلات اقتصادی(Enterprise reporting) و ETL، یک عضو کلیدی در خانواده محصول Business Intelligence(BI)، است.[2]
حوزههای مختلفی وجود دارد که در آنها حجم بسیاری از داده در پایگاهدادههای متمرکز یا توزیع شده ذخیره میشود. برخی از آنها به قرار زیر هستند: [6]
در بیشتر این حوزهها، تحلیل دادهها یک روال دستی بود. یک تحلیلگر کسی بود که با دادهها بسیار آشنا بود و با کمک روشهای آماری، خلاصههایی تهیه و گزارشاتی را تولید میکرد. در یک حالت پیشرفتهتر، از یک پردازنده پیچیده پرسش استفاده میشد. اما این روشها با افزایش حجم دادهها کاملا بلااستفاده شدند.
واژه های «دادهکاوی» و «کشف دانش در پایگاه داده»[1] اغلب به صورت مترادف یکدیگر مورد استفاده قرار می گیرند. کشف دانش به عنوان یک فرآیند در شکل1 نشان داده شده است.
کشف دانش در پایگاه داده فرایند شناسایی درست، ساده، مفید، و نهایتا الگوها و مدلهای قابل فهم در داده ها میباشد. دادهکاوی، مرحلهای از فرایند کشف دانش میباشد و شامل الگوریتمهای مخصوص دادهکاوی است، بطوریکه، تحت محدودیتهای مؤثر محاسباتی قابل قبول، الگوها و یا مدلها را در داده کشف می کند[3]. به بیان سادهتر، دادهکاوی به فرایند استخراج دانش ناشناخته، درست، و بالقوه مفید از داده اطلاق میشود. تعریف دیگر اینست که، دادهکاوی گونهای از تکنیکها برای شناسایی اطلاعات و یا دانش تصمیمگیری از قطعات داده میباشد، به نحوی که با استخراج آنها، در حوزههای تصمیمگیری، پیش بینی، پیشگویی، و تخمین مورد استفاده قرار گیرند. دادهها اغلب حجیم، اما بدون ارزش میباشند، داده به تنهایی قابل استفاده نیست، بلکه دانش نهفته در داده ها قابل استفاده می باشد. به این دلیل اغلب به داده کاوی، تحلیل داده ای ثانویه[2] گفته میشود.
[1] Knowledge Discovery in Database
[2] Secondary Data Analysis
شرح مختصر : امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کردواطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد. با استفاده از پرسش های ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است. از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند. داده کاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند. در داده کاوی از بخشی از علم آمار به نام تحلیل اکتشافی داده ها استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود . علاوه بر این داده کاوی با هوش مصنوعی و یادگیری ماشین نیز ارتباط تنگاتنگی دارد ، بنابراین می توان گفت در داده کاوی تئوریهای پایگاه داده ها ، هوش مصنوعی ، یادگیری ماشین و علم آمار را در هم می آمیزند تا زمینه کاربردی فراهم شود. باید توجه داشت که اصطلاح داده کاوی زمانی به کار برده می شود که با حجم بزرگی از داده ها ، در حد مگا یا ترابایت ، مواجه باشیم . در تمامی منابع داده کاوی بر این مطلب تاکید شده است. هر چه حجم داده ها بیشتر و روابط میان آنها پیچیده تر باشد دسترسی به اطلاعات نهفته در میان داده ها مشکلتر می شود و نقش داده کاوی به عنوان یکی از روشهای کشف دانش ، روشن تر می گردد.
پایان نامه با موضوع داده کاوی، مفاهیم و کاربرد(فرمت word)
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کردواطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد . با استفاده از پرسش های ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است . از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند . داده کاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند . در داده کاوی از بخشی از علم آمار به نام تحلیل اکتشافی داده ها استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود . علاوه بر این داده کاوی با هوش مصنوعی و یادگیری ماشین نیز ارتباط تنگاتنگی دارد ، بنابراین می توان گفت در داده کاوی تئوریهای پایگاه داده ها ، هوش مصنوعی ، یادگیری ماشین و علم آمار را در هم می آمیزند تا زمینه کاربردی فراهم شود . باید توجه داشت که اصطلاح داده کاوی زمانی به کار برده می شود که با حجم بزرگی از داده ها ، در حد مگا یا ترابایت ، مواجه باشیم . در تمامی منابع داده کاوی بر این مطلب تاکید شده است . هر چه حجم داده ها بیشتر و روابط میان آنها پیچیده تر باشد دسترسی به اطلاعات نهفته در میان داده ها مشکلتر می شود و نقش داده کاوی به عنوان یکی از روشهای کشف دانش ، روشن تر می گردد .
فهرست :
چکیده
مقدمه
فصل اول – مفاهیم داده کاوی
مدیریت ذخیره سازی و دستیابی اطلاعات
ساختار بانک اطلاعاتی سازمان
داده کاوی (Data Mining)
مفاهیم پایه در داده کاوی
تعریف داده کاوی
مراحل فرایند کشف دانش از پایگاه داده ها
الگوریتم های داده کاوی
آماده سازی داده برای مدل سازی
درک قلمرو
ابزارهای تجاری داده کاوی Tools DM Commercial
منابع اطلاعاتی مورد استفاده
محدودیت های داده کاوی
حفاظت از حریم شخصی در سیستمهای دادهکاوی
فصل دوم : کاربردهای داده کاوی
کاربرد داده کاوی در کسب و کار هوشمند بانک
داده کاوی در مدیریت ارتباط با مشتری
کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی
داده کاوی و مدیریت موسسات دانشگاهی
داده کاوی و مدیریت بهینه وب سایت ها
دادهکاوی و مدیریت دانش
کاربرد دادهکاوی در آموزش عالی
فصل سوم – بررسی موردی۱: وب کاوی
معماری وب کاوی
مشکلات و محدودیت های وب کاوی در سایت های فارسی زبان
محتوا کاوی وب
فصل چهارم – بررسی موردی
داده کاوی در شهر الکترونیک
زمینه دادهکاوی در شهر الکترونیک
کاربردهای داده کاوی در شهر الکترونیک
چالشهای داده کاوی در شهر الکترونیک
مراجع و ماخذ
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده را پردازش کردواطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد .
با استفاده از پرسش های ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است .
از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند .
داده کاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند .
در داده کاوی از بخشی از علم آمار به نام تحلیل اکتشافی داده ها استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود . علاوه بر این داده کاوی با هوش مصنوعی و یادگیری ماشین نیز ارتباط تنگاتنگی دارد ، بنابراین می توان گفت در داده کاوی تئوریهای پایگاه داده ها ، هوش مصنوعی ، یادگیری ماشین و علم آمار را در هم می آمیزند تا زمینه کاربردی فراهم شود .
باید توجه داشت که اصطلاح داده کاوی زمانی به کار برده می شود که با حجم بزرگی از داده ها ، در حد مگا یا ترابایت ، مواجه باشیم . در تمامی منابع داده کاوی بر این مطلب تاکید شده است .
هر چه حجم داده ها بیشتر و روابط میان آنها پیچیده تر باشد دسترسی به اطلاعات نهفته در میان داده ها مشکلتر می شود و نقش داده کاوی به عنوان یکی از روشهای کشف دانش ، روشن تر می گردد .
چکیده 4
مقدمه 6
فصل اول – مفاهیم داده کاوی 9
مدیریت ذخیره سازی و دستیابی اطلاعات 9
ساختار بانک اطلاعاتی سازمان: 10
داده کاوی (Data Mining): 11
مفاهیم پایه در داده کاوی 13
تعریف داده کاوی 14
مراحل فرایند کشف دانش از پایگاه داده ها 16
الگوریتم های داده کاوی 22
آماده سازی داده برای مدل سازی 30
درک قلمرو 38
ابزارهای تجاری داده کاوی Tools DM Commercial 46
منابع اطلاعاتی مورد استفاده 47
محدودیت های داده کاوی 56
حفاظت از حریم شخصی در سیستمهای دادهکاوی 56
فصل دوم : کاربردهای داده کاوی 59
کاربرد داده کاوی در کسب و کار هوشمند بانک 60
داده کاوی درمدیریت ارتباط بامشتری 61
کاربردهای داده کاوی در کتابخانه ها و محیط های دانشگاهی 63
داده کاوی و مدیریت موسسات دانشگاهی 65
داده کاوی و مدیریت بهینه وب سایت ها 66
دادهکاوی و مدیریت دانش 67
کاربرد دادهکاوی در آموزش عالی 68
فصل سوم – بررسی موردی1: وب کاوی 70
معماری وب کاوی 70
مشکلات ومحدودیت های وب کاوی در سایت های فارسی زبان 75
محتوا کاوی وب 76
فصل چهارم – بررسی موردی 2 : داده کاوی در شهر الکترونیک 79
زمینه دادهکاوی در شهر الکترونیک 81
کاربردهای دادهکاوی در شهر الکترونیک 83
چالشهای دادهکاوی در شهر الکترونیک 88
مراجع و ماخذ 97
شامل 101 صفحه فایل word