Տվյալների մայնինգը կամ տվյալների հետազոտումը օրինաչափությունների հայտնաբերման գործընթացն է մեծ տվյալների ամբողջության մեջ, որը ներառում է մեքենայական ուսուցման, վիճակագրության և տվյալների բազայի համակարգերի մեթոդներ: Տվյալների հետազոտումը համակարգչային գիտության և վիճակագրության միջդիսցիպլինար ենթաճյուղ է, որի նպատակն է ՙՙխելացի՚՚ մեթոդներով տվյալների ամբողջությունից տեղեկատվության ստացումն ու վերափոխումը հասկանալի կառուցվածքի՝ հետագա օգտագործման համար: [1] [2] [3] [4] Տվյալների հետազոտումը «տվյալների բազայում գիտելիքների հայտնաբերման» գործընթացի կամ KDD- ի վերլուծության քայլն է: [5] Բացի վերլուծությունից, այն ներառում է նաև տվյալների բազայի և տվյալների կառավարման ասպեկտներ, տվյալների նախնական վերամշակում, մոդելի և եզրակացության նկատառումներ, հետաքրքրության չափումներ, բարդությունների նկատառումներ, կառուցվածքի հետագա վերամշակում, վիզուալացում և առցանց թարմացում:

Տվյալների հետազոտման նպատակը մեծ քանակությամբ տվյալներից օրինաչափությունների և տեղեկատվության դուրսբերումն է:[6] Այն նաև կիրառվում է լայնածավալ տվյալների կամ տեղեկատվության մշակման տարբեր ձևերի ( հավաքում, արտահանում, պահում, վերլուծություն և վիճակագրություն), ինչպես նաև համակարգչային որոշումների աջակցման համակարգի կիրառման մեջ, ներառյալ արհեստական բանականության (օրինակ ՝ մեքենայական ուսուցում) և բիզնեսի ռազմավարության և տեխնոլոգիաների մեջ (business intelligence): «Տվյալների հետազոտում. մեքենայական ուսուցման գործիքներ և տեխնիկա Java-ով» [7] գիրքը, որն ընդգրկում է հիմնականում մեքենայական ուսուցման մասին նյութեր, սկզբնապես պետք է անվանվեր պարզապես «Գործնական մեքենայական ուսուցում», և տվյալների հետազոտում տերմինը ավելացվել է միայն մարկետինգային նպատակներով: [8]

Տվյալների հետազոտման իրական խնդիրը մեծ քանակությամբ տվյալների մասնակիորեն կամ ամբողջությամբ ավտոմատացված վերլուծություն է, որպեսզի գտնենք նախկինում անհայտ, հետաքրքիր օրինաչափություններ, ինչպիսիք են տվյալների խմբերը ( կլաստներերի վերլուծություն ), անսովոր գրանցումները ( անոմալիաների հայտնաբերում ) և կախվածությունը: Սա սովորաբար ներառում է տվյալների բազայի մեթոդներ, ինչպիսիք են տարածական ցուցանիշները: Այս նմուշները այնուհետև կարող են դիտվել որպես մուտքային տվյալների մի տեսակ ամփոփում և կարող են օգտագործվել հետագա վերլուծության կամ, օրինակ, մեքենայական ուսուցման և կանխատեսման վերլուծության մեջ: Օրինակ, տվյալների հետազոտության քայլը կարող է նույնականացնել բազմաթիվ խմբերի տվյալների մեջ, որոնք այնուհետև կարող են օգտագործվել որոշումների աջակցության համակարգով ավելի ճշգրիտ կանխատեսման արդյունքներ ստանալու համար: Տվյալների հավաքագրումը, տվյալների նախապատրաստումը, արդյունքների մեկնաբանումը և հաշվետվությունը չեն հանդիսանում տվյալների հետազոտման քայլի մաս, բայց պատկանում են ընդհանուր KDD գործընթացին՝ որպես լրացուցիչ քայլեր:

Տվյալների վերլուծության և տվյալների հետազոտման միջև տարբերությունն այն է, որ տվյալների վերլուծությունն օգտագործվում է տվյալների բազայում մոդելների և վարկածների փորձարկման համար, օրինակ՝ շուկայավարման արշավի արդյունավետությունը վերլուծելու համար՝ անկախ տվյալների քանակությունից: Տվյալների հետազոտումն իրականացվում է մեքենայական ուսուցման և վիճակագրական մոդելների միջոցով՝ մեծ ծավալի տվյալների թաքնված օրինաչափությունները բացահայտելու համար: [9]

Տտվյալների աղավաղում, տվյալների ֆիշինգ և տվյալների զննում տերմինները վերաբերում են տվյալների հետազոտման մեթոդների օգտագործմանը` ավելի մեծ թվով տվյալների ընտրանքներ կազմելու համար, որոնք կարող են շատ փոքր լինել վավերության վերաբերյալ հուսալի վիճակագրական եզրակացություններ կատարելու համար: Այնուամենայնիվ, այս մեթոդները, կարող են օգտագործվել նոր վարկածներ ստեղծելու համար՝ տվյալների ավելի մեծ քանակների ստուգման համար:

Էթիմոլոգիա խմբագրել

1960-ական թվականներին վիճակագիրներն ու տնտեսագետները օգտագործում էին տվյալների ֆիշինգ կամ տվյալների աղավաղում տերմինները բնութագրելու համար տվյալների վերլուծությունը առանց առաջնային վարկածի, ինչը տվյալների վերլուծության վատ ձև էր համարվում: «Տվյալների հետազոտում» տերմինը օգտագործվել է նաև տնտեսագետ Մայքլ Լոուելի կողմից 1983-ին«Տնտեսագիտական ուսումնասիրությունների ակնարկ» ամսագրում տպագրված հոդվածում: [10] [11]

Տվյալների հետազոտում տերմինը ի հայտ է եկել 1990 թ.-ին: 1980-ականներին կարճ ժամանակով օգտագործվել է «տվյալների բազաների հետազոտում» արտահայտությունը, բայց, քանի որ այն ապրանքային նշան է ստացել Սան Դիեգոյի կենտրոնում գործող HNC ընկերության կողմից՝ հիմնելու իրենց տվյալների բազայի հետազոտման կայանը, [12] մասնագետները տերմինը վերանվանեցին տվյալների հետազոտում: Օգտագործվում են նաև այլ տերմիններ՝ տեղեկատվության հավաքում և պահպանում, տեղեկատվության բացահայտում և այլն: Գրեգորի Պիացեցկի-Շապիրոն առաջարկել է «գիտելիքներ տվյալների բազաների վերաբերյալ» տերմինը նույն թեմայով առաջին սեմինարի համար (KDD-1989), և այս տերմինը ավելի տարածված դարձավ AI և մեքենայական ուսուցման ոլորտներում: Ներկայումս, տվյալների հետազոտում տերմինը ավելի տարածված է բիզնեսի ոլորտներում: [13]

Ակադեմիական ոլորտում հետազոտությունները սկսվել են 1995 թվականից, երբ Մոնրեալում կայացավ տվյալների հետազոտման և գիտելիքների բացահայտման առաջին միջազգային համաժողովը ( KDD-95 ) ՝ AAAI- ի հովանավորությամբ: Այն համանախագահում էին Ուսամա Ֆայադը և Ռամասամի Ութուրուսամին: KDD միջազգային կոնֆերանսը դարձավ տվյալների հետազոտման առաջին խորհրդաժողովը, որին ներկացված հետազոտական փաստաթղթերից ընդունվել է 18%-ից քիչը: Data Mining and Knowledge Discovery ամսագիրը ոլորտի առաջնահերթ հետազոտական ամսագիր է:

Նախապատմություն խմբագրել

Տվյալներից ընտրանքներ կազմելը դարեր շարունակ կատարվել է ձեռքով: Տվյալներում օրինաչափությունների հայտնաբերման սկզբնական մեթոդներից են Բայեսի թեորեմը (1700-ականներ) և ռեգրեսիայի վերլուծությունը (1800-ականներ): Համակարգչային տեխնոլոգիաների տարածումը փոփոխել են տվյալների հավաքագրման, պահպանման և մանիպուլյացիայի ձևերը: Տվյալների ծավալներն աճել են իրենց չափերով և բարդությամբ, ինչը տվյալների մշակման ավտոմատացման անհրաժեշտություն է առաջացրել, որի համար սկսել են օգտագործել նաև համակարգչային գիտության հայտնագործությունները, մասնավորապես՝ մեքենայական ուսուցման ոլորտում, ինչպիսիք են նեյրոնային ցանցերը, կլաստերի վերլուծությունը, գենետիկական ալգորիթմներ (1950-ականներ), որոշման ծառեր և որոշումների կանոններ (1960-ականներ) և օժանդակ վեկտորային մեքենաներ (1990-ականներ): Տվյալների հետազոտումը այս մեթոդների կիրառման միջոցով թաքնված բացահայտումն է: [14] Այն կապ է ստեղծում կիրառական վիճակագրության, արհեստական բանականության (որոնք սովորաբար ապահովում են մաթեմատիկական ֆոնը) և տվյալների բազաների կառավարման միջև` մշակելով այն եղանակները, որոնց միջոցով տվյալները պահպանվում և ինդեքսավորվում են տվյալների բազաներում սովորելու և հայտնագործման ալգորիթմներն առավել արդյունավետ իրականացնելու համար, ինչը թույլ է տալիս այդպիսի մեթոդները կիրառվել ավելի մեծ թվով տվյալների վրա:

Ընթացքը խմբագրել

KDD գործընթացի հիմնական փուլերն են.

  1. Ընտրություն
  2. Նախնական վերամշակում
  3. Վերափոխում
  4. Տվյալների հետազոտում կամ մայնինգ
  5. Մեկնաբանում/գնահատում: [5]

Գոյություն ունեն նաև այլ բաժանումներ, օրինակ՝ CRISP-DM, որը սահմանում է վեց փուլ.

  1. Բիզնեսի ընկալում
  2. Տվյալների ընկալում
  3. Տվյալների նախապատրաստում
  4. Մոդելավորում
  5. Գնահատում
  6. Տեղակայում

Կա նաև ավելի պարզեցված տարբերակը՝ (1) նախնական վերամշակում, (2) տվյալների հետազոտում և (3) արդյունքների վավերացումը:

2002, 2004, 2007 և 2014 թվականներին անցկացված հարցումները ցույց են տվել, որ CRISP-DM մեթոդաբանությունը ամենաշատ օգտագործվողն է: [15] Այս հարցումներում նշված տարբերակներից մեկը SEMMA- ն էր: Այնուամենայնիվ, CRISP-DM օգտագործողների թիվը 3-4 անգամ ավելի շատ է: Հետազոտողների մի քանի թիմեր հրապարակել են տվյալների հետազոտման գործընթացների մոդելների մասին ակնարկներ, [16] իսկ Ազևեդոն և Սանտոսը 2008 թ.-ին կատարել են CRISP-DM- ի և SEMMA- ի համեմատությունը:

Նախնական վերամշակում խմբագրել

Նախքան տվյալների հետազոտման ալգորիթմների օգտագործումը անհրաժեշտ է հավաքել նպատակային օգտագործման տվյալներ: Քանի որ տվյալների հետազոտումը կարող է բացահայտել միայն տվյալներում առկա օրինաչափությունները, նպատակային օգտագործման տվյալները պետք է լինեն բավականաչափ մեծ, որպեսզի պարունակեն այդ օրինաչափությունները, և միևնույն ժամանակ հակիրճ, որպեսզի հետազոտումը կատարվի խելամիտ ժամկետներում: Տվյալների հիմնական աղբյուրը տվյալների պահեստն է: Տվյալների հետազոտումից առաջ դրանց նախամշակումը անհրաժեշտ է բազմափոփոխական տվյալների վերլուծության համար: Թիրախային տվյալներն այնուհետև մաքրվում են: Տվյալների մաքրումը հեռացնում է աղմուկ և/կամ բացակայող տվյալներ պարունակող դիտարկումները:

Տվյալների մայնինգ/հետազոտում խմբագրել

Տվյալների հետազոտումը ներառում է վեց տիպի առաջադրանք. [5]

  • Անոմալիայի հայտնաբերում (հեռավորության / փոփոխության / շեղման հայտնաբերում) - Անսովոր տվյալների նույնականացում, որոնք կարող են հետաքրքիր լինել կամ տվյալների սխալներ, որոնք պահանջում են հետագա հետազոտություն:
  • Ասոցիացիայի կանոնների ուսուցում (կախվածության մոդելավորում) - փոփոխականների միջև փոխհարաբերությունների որոնում: Օրինակ, սուպերմարկետը կարող է հավաքել տվյալներ հաճախորդի գնման սովորությունների վերաբերյալ: Օգտագործելով ասոցիացիայի կանոնների ուսուցումը՝ սուպերմարկետը կարող է որոշել, թե որ ապրանքատեսակներն են հաճախ միասին ձեռք բերվում, և օգտագործել այս տեղեկատվությունը մարքեթինգային նպատակներով: Սա երբեմն կոչվում է շուկայական զամբյուղի վերլուծություն:
  • Կլաստերի վերլուծություն. տվյալների մեջ խմբերի և կլաստերների հայտնաբերման խնդիրն է, որոնց ներսում գտնվող տվյալները ինչ-որ կերպ նման են միմյանց և տարբեր՝ մյուս խմբերի տվյալներից: Այդ խմբերը նախապես հայտնի չեն:
  • Դասակարգում/կլասիֆիկացիա - այս դեպքում տվյալների կառուցվածքը արդեն իսկ հայտնի է և խնդիրը այդ կառուցվածքը նոր տվյալների վրա կիրառելն է: Օրինակ, էլեկտրոնային նամակները կարելի է որևէ ծրագրի միջոցով դասակարգել սովորական նամակ կամ որպես սպամ:
  • Ռեգրեսիա - փորձում է գտնել այնպիսի ֆունկցիա, որը գնահատելով տվյալների միջև կապը, տվյալները մոդելավորում է նվազագույն սխալով:
  • Ամփոփում - տվյալների հակիրճ նկարագրություն՝ ներառյալ դրանց պատկերում/վիզուալացում և զեկույցների ստեղծման, ավելի կոմպակտ ներկայացում ապահովում:

Արդյունքների վավերացում խմբագրել

 
Տվյալների օրինակ, որը ստեղծվել է բոտի միջոցով: Այն վարում է վիճակագրագետ Թայլեր Վիգենը, ով ցույց է տալիս, որ ակնհայտորեն սերտ կապ կա ուղղագրական մրցակցությունը շահող լավագույն բառի տառերի քանակի և ԱՄՆ-ում թունավոր սարդերի պատճառով մահացած մարդկանց թվաքանակի միջև: Բնականաբար, այս թրենդների նմանությունը պատահականություն է:

Տվյալների հետազոտումը կարող է ակամայից չարաշահվել, և այնուհետև կարող է հանգեցնել այնպիսի արդյունքների, որոնք թվում են նշանակալի, բայց որոնք իրականում չեն կանխատեսում ապագա պահվածքը և չեն կարող վերարտադրվել տվյալների նոր նմուշի վրա և դժվար թե օգտագործման համար պիտանի լինեն: Սա հաճախ հանգեցնում է չափազանց շատ վարկածներ ուսումնասիրելուն և ոչ թե պատշաճ վիճակագրական վարկածների ստուգում կատարելուն: Այս խնդրի պարզ տարբերակը մեքենայական ուսուցման մեջ հայտնի է որպես գերակատարում/օվերֆիթինգ, բայց նույն խնդիրը կարող է առաջանալ գործընթացի տարբեր փուլերում, ուստի վերապատրաստման/թեստավորման մոդելը միշտ չէ, որ կարող է կանխարգելել գերակատարումը: [17]

KDD-ի վերջին քայլը վերիֆիկացումն է, որ տվյալների հետազոտման ալգորիթմների միջոցով ստացված օրինաչափությունները տեղի ունեն նաև ավելի մեծ տվյալների համար: Տվյալների հետազոտման ալգորիթմների կողմից հայտնաբերված ոչ բոլոր օրինաչափությունները կարող են լինել վավեր: Երբեմն տվյալների հետազոտման ալգորիթմները կարող են վերապատրաստման մոդելի համար գտնել այնպիսի օրինաչափություններ, որոնք ընդհանուր տվյալներում առկա չեն: Սա կոչվում է գերակատարում: Դա հաղթահարելու համար գնահատումը օգտագործում է տվյալների թեստային տվյալներ, որի վրա տվյալների հետազոտման ալգորիթմը նախկինում չի կիրառվել: Գտնված օրինաչափությունները կիրառվում են այս տվյալների վրա, և արդյունքում ստացված արդյունքը համեմատվում է ցանկալի արդյունքի հետ: Օրինակ, տվյալների հետազոտման ալգորիթմը, որը փորձում է տարբերակել սպամը սովորական էլեկտրոնային նամակից հասցեներից, սովորում է է ընտրանքային էլեկտրոնային հասցեների վերապատրաստման նմուշի վրա: Ստացված օրինաչափությունները կիրառվում են էլեկտրոնային փոստի թեստային նմուշի վրա, որի վրա այն չի սովորել: Սրա ճշգրտությունը այնուհետև կարելի է չափել ճիշտ դասակարգված էլեկտրոնային փոստերի քանակով: Ալգորիթմի գնահատման համար կարող են օգտագործվել մի քանի վիճակագրական մեթոդներ, ինչպիսիք են ROC կորերը:

Եթե սովորված օրինաչափությունները չեն համապատասխանում ցանկալի չափանիշներին, ապա անհրաժեշտ է վերագնահատել և փոխել նախամշակման և տվյալների հետազոտման քայլերը: Եթե սովորած օրինաչափությունները բավարարում են ցանկալի չափանիշներին, ապա վերջնական քայլը սովորած օրինաչափությունները մեկնաբանելն ու գիտելիքի վերածելն է:

Հատկանշական օգտագործումներ խմբագրել

Տվյալների հետազոտումն օգտագործվում է այնտեղ, որտեղ այսօր առկա են թվային տվյալներ: Տվյալների հետազոտման ուշագրավ օրինակներ կարելի է գտնել բիզնեսի, բժշկության, գիտության և վերահսկողության ոլորտներում:

Գաղտնիության հետ կապված մտահոգություններ և էթիկա խմբագրել

Տվյալների հետազոտումը հաճախ կապված է կապված մարդկանց վարքի վերաբերյալ տեղեկատվության հետ (էթիկական և այլ): [18]

Տվյալների հետազոտումը որոշ դեպքերում կարող են խնդիրներ առաջացնել գաղտնիության, օրինականության և էթիկայի վերաբերյալ: [19] Մասնավորապես, երկրի անվտանգության կամ իրավապահ մարմինների համար տվյալների հետազոտությունները մտահոգությունների տեղիք են տվել: [20] [21]

Առաջարկվում է տվյալների հավաքագրումից առաջ անհրաժեշտ է հաշվի առնել ներքոնշյալ կետերը.

  • տվյալների հավաքագրման և հետազոտման նպատակը.
  • ինչպես են օգտագործվելու տվյալները.
  • ով հասանելիություն կունենա տվյալներին և օգտագործել դրանք.
  • անվտանգության կարգավիճակը՝ կապված տվյալներին հասանելիության հետ.
  • ինչպես կարող են հավաքագրված տվյալները թարմացվել:

Տվյալները կարող են փոփոխվել այնպես, որ պարունակեն անանուն ինֆորմացիա, որպեսզի անհատները չնույնականացվեն: Այնուամենայնիվ, նույնիսկ «անանունացված» տվյալները կարող են պարունակել բավականաչափ տեղեկատվություն՝ անձանց նույնականացման համար:

Տվյալների հետազոտման անվճար ծրագիր և հավելվածներ խմբագրել

Հետևյալ ծրագրերը հասանելի են անվճար / բաց աղբյուրի լիցենզիայի ներքո: Հավելվածի աղբյուրի կոդը ևս հասանելի է հանրությանը:

  • Carrot2 . Տեքստի և որոնման արդյունքների կլաստերավորման շրջանակ:
  • Chemicalize.org . Քիմիական կառուցվածքի հետազոտման և վեբ որոնման համակարգ:
  • ELKI . Համալսարանական հետազոտական նախագիծ` կլաստերի խորը վերլուծությամբ և տարբերվող կետերի հայտնաբերման մեթոդներով, որոնք գրված են Java լեզվով:
  • GATE . Բնական լեզվի մշակման գործիք:
  • KNIME . Konstanz Information Miner՝ օգտագործողի համար հարմար և տվյալների համապարփակ վերլուծության շրջանակ:
  • Զանգվածային առցանց վերլուծություն (MOA) . Իրական ժամանակի մեծ տվյալների հոսքի հետազոտում՝ Java ծրագրավորման լեզվով:
  • MEPX - ռեգրեսիայի և դասակարգման խնդիրների խաչաձև պլատֆորմային գործիք ՝ գենետիկ ծրագրավորման տարբերակի հիման վրա:
  • ML-Flex. Ծրագրային փաթեթ, որն օգտագործողներին հնարավորություն է տալիս ինտեգրվել երրորդ կողմից ծրագրավորման ցանկացած լեզվով գրված մեքենաշինական փաթեթների հետ, կատարել կլաստերային վերլուծություններ և պատրաստել դասակարգման ստացված արդյունքների վերաբերյալ զեկույցներ HTML ֆորմատով:
  • mlpack . պատրաստի օգտագործման մեքենայական ալգորիթմների հավաքածու, որը գրված է C ++ լեզվով:
  • NLTK ( Բնական լեզվի գործիքակազմ ). Սիմվոլների և վիճակագրական բնական լեզվի մշակման համար Python ծրագրավորման լեզվով գրված գրադարանների և ծրագրերի հավաքակազմ:
  • OpenNN . Նեյրոնային ցանցերի բաց գրադարան:
  • Orange . Բաղադրիչների վրա հիմնված տվյալների հետազոտման և մեքենայական ուսուցման ծրագրային հավաքակազմ, որը գրված է Python լեզվով:
  • R. Ծրագրավորման լեզու և ծրագրաային միջավայր վիճակագրական հաշվարկների, տվյալների հետազոտման և գրաֆիկայի համար: Այն GNU ծրագրի մի մասն է:
  • scikit-Learn- ը Python ծրագրավորման լեզվի համար բաց գրադարան է:
  • Torch . Խորը ուսուցման համար նախատեսված բաց գրադարան՝ Lua ծրագրավորման լեզվի և գիտական հաշվարկների շրջանակի համար՝ մեքենայական ուսուցման ալգորիթմների լայն աջակցությամբ:
  • UIMA . UIMA- ն (Չկառուցված տեղեկատվության կառավարման համակարգ) չկառուցված բովանդակության վերլուծության համար բաղկացուցիչ հիմք է, ինչպիսիք են տեքստը, աուդիոն և վիդեոն, որոնք ի սկզբանե մշակվել են IBM- ի կողմից:
  • Weka . Java- ի ծրագրավորման լեզվով գրված մեքենայական ուսուցման ծրագրերի խումբ է:

[[Կատեգորիա:Ֆորմալ գիտություններ]]

  1. «Data Mining Curriculum». ACM SIGKDD. 2006-04-30. Վերցված է 2014-01-27-ին.
  2. Clifton, Christopher (2010). «Encyclopædia Britannica: Definition of Data Mining». Վերցված է 2010-12-09-ին.
  3. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). «The Elements of Statistical Learning: Data Mining, Inference, and Prediction». Արխիվացված է օրիգինալից 2009-11-10-ին. Վերցված է 2012-08-07-ին.
  4. Han, Kamber, Pei, Jaiwei, Micheline, Jian (June 9, 2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.{{cite book}}: CS1 սպաս․ բազմաթիվ անուններ: authors list (link)
  5. 5,0 5,1 5,2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). «From Data Mining to Knowledge Discovery in Databases» (PDF). Վերցված է 17 December 2008-ին.
  6. Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. էջ 5. ISBN 978-1-55860-489-6. «Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long»
  7. Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
  8. Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). «WEKA Experiences with a Java open-source project». Journal of Machine Learning Research. 11: 2533–2541. «the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.»
  9. Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181-193. doi:10.1007/s11628-006-0014-7
  10. Lovell, Michael C. (1983). «Data Mining». The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.
  11. Charemza, Wojciech W.; Deadman, Derek F. (1992). «Data Mining». New Directions in Econometric Practice. Aldershot: Edward Elgar. էջեր 14–31. ISBN 1-85278-461-X.
  12. Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
  13. Piatetsky-Shapiro, Gregory; Parker, Gary (2011). «Lesson: Data Mining, and Knowledge Discovery: An Introduction». Introduction to Data Mining. KD Nuggets. Վերցված է 30 August 2012-ին.
  14. Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
  15. Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
  16. Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi:10.1017/S0269888906000737
  17. Hawkins, Douglas M (2004). «The problem of overfitting». Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
  18. Seltzer, William (2005). «The Promise and Pitfalls of Data Mining: Ethical Issues» (PDF). ASA Section on Government Statistics. American Statistical Association.
  19. Pitts, Chip (15 March 2007). «The End of Illegal Domestic Spying? Don't Count on It». Washington Spectator. Արխիվացված է օրիգինալից 2007-11-28-ին.
  20. Taipale, Kim A. (15 December 2003). «Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data». Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782.
  21. Resig, John. «A Framework for Mining Instant Messaging Services» (PDF). Վերցված է 16 March 2018-ին.