Տվյալների մայնինգը կամ տվյալների հետազոտումը օրինաչափությունների հայտնաբերման գործընթացն է մեծ տվյալների ամբողջության մեջ, որը ներառում է մեքենայական ուսուցման, տվյալների բազայի համակարգերի և վիճակագրության մեթոդներ։ Տվյալների հետազոտումը համակարգչային գիտության և վիճակագրության միջդիսցիպլինար ենթաճյուղ է, որի նպատակն է ՙՙխելացի՚՚ մեթոդներով տվյալների ամբողջությունից տեղեկատվության ստացումն ու վերափոխումը հասկանալի կառուցվածքի՝ հետագա օգտագործման համար[1][2][3][4]։ Տվյալների հետազոտումը «տվյալների բազայում գիտելիքների հայտնաբերման» գործընթացի՝ KDD-ի վերլուծության քայլն է[5]։ Բացի վերլուծությունից, այն ներառում է նաև տվյալների բազայի և տվյալների կառավարման ասպեկտներ, տվյալների նախնական վերամշակում, մոդելի և եզրակացության նկատառումներ, հետաքրքրության չափումներ, բարդությունների նկատառումներ, կառուցվածքի հետագա վերամշակում, վիզուալացում և առցանց թարմացում։

Տվյալների հետազոտման նպատակը մեծ քանակությամբ տվյալներից օրինաչափությունների և տեղեկատվության դուրսբերումն է[6]։ Այն նաև կիրառվում է լայնածավալ տվյալների կամ տեղեկատվության մշակման տարբեր ձևերի (հավաքում, արտահանում, պահպանում, վերլուծություն և վիճակագրություն), ինչպես նաև համակարգչային որոշումների աջակցման համակարգի (computer decision support system) կիրառման մեջ, ներառյալ արհեստական բանականության (օրինակ՝ մեքենայական ուսուցում) և բիզնեսի ռազմավարության և տեխնոլոգիաների (business intelligence) մեջ։ «Տվյալների հետազոտում. մեքենայական ուսուցման գործիքներ և տեխնիկա Java-ով»[7] գիրքը, որն ընդգրկում է հիմնականում մեքենայական ուսուցման մասին նյութեր, սկզբնապես պետք է անվանվեր պարզապես «Գործնական մեքենայական ուսուցում», և տվյալների հետազոտում տերմինը ավելացվել է միայն մարքեթինգային նպատակներով[8]։

Տվյալների հետազոտման իրական խնդիրը մեծ քանակությամբ տվյալների մասնակիորեն կամ ամբողջությամբ ավտոմատացված վերլուծությունն է, որպեսզի գտնենք նախկինում անհայտ, հետաքրքիր օրինաչափություններ, ինչպիսիք են տվյալների խմբերը ( կլաստներերի վերլուծություն ), անսովոր գրանցումները (անոմալիաների հայտնաբերում) և կախվածությունը։ Այս նմուշները այնուհետև կարող են դիտվել որպես մուտքային տվյալների ամփոփում և կարող են օգտագործվել հետագա վերլուծության կամ, օրինակ, մեքենայական ուսուցման և կանխատեսման վերլուծության մեջ։ Օրինակ, տվյալների հետազոտության մի քայլը կարող է տվյալները բաժանել մի քանի խմբերի, որոնք այնուհետև կարող են օգտագործվել որոշումների աջակցության համակարգի միջոցով ավելի ճշգրիտ կանխատեսումներ կատարելու համար։ Տվյալների հավաքագրումը, տվյալների նախապատրաստումը, արդյունքների մեկնաբանումը և հաշվետվությունը չեն հանդիսանում տվյալների հետազոտման մաս, բայց պատկանում են ընդհանուր KDD գործընթացին՝ որպես լրացուցիչ քայլեր։

Տվյալների վերլուծության և տվյալների հետազոտման միջև տարբերությունն այն է, որ տվյալների վերլուծությունն օգտագործվում է տվյալների բազայում մոդելների և վարկածների փորձարկման համար, օրինակ՝ շուկայավարման արշավի արդյունավետությունը վերլուծելու համար՝ անկախ տվյալների քանակությունից։ Տվյալների հետազոտումն իրականացվում է մեքենայական ուսուցման և վիճակագրական մոդելների միջոցով՝ մեծ ծավալի տվյալների թաքնված օրինաչափությունները բացահայտելու համար[9]։

Տվյալների աղավաղում, տվյալների ֆիշինգ և տվյալների զննում տերմինները վերաբերում են տվյալների հետազոտման մեթոդների օգտագործմանը` ավելի մեծ թվով տվյալների ընտրանքներ կազմելու համար, որոնք կարող են շատ փոքր լինել վավերության վերաբերյալ հուսալի վիճակագրական եզրակացություններ կատարելու համար։ Այնուամենայնիվ, այս մեթոդները կարող են օգտագործվել նոր վարկածներ ստեղծելու համար՝ տվյալների ավելի մեծ քանակների ստուգման համար։

Էթիմոլոգիա խմբագրել

1960-ական թվականներին վիճակագիրներն ու տնտեսագետները օգտագործում էին տվյալների ֆիշինգ կամ տվյալների աղավաղում տերմինները բնութագրելու համար տվյալների վերլուծությունը առանց առաջնային վարկածի, ինչը տվյալների վերլուծության վատ ձև էր համարվում։ «Տվյալների հետազոտում» տերմինը օգտագործվել է նաև տնտեսագետ Մայքլ Լոուելի կողմից 1983-ին«Տնտեսագիտական ուսումնասիրությունների ակնարկ» ամսագրում տպագրված հոդվածում[10][11]։

Տվյալների հետազոտում տերմինը ի հայտ է եկել 1990 թ.-ին։ 1980-ականներին կարճ ժամանակով օգտագործվել է «տվյալների բազաների հետազոտում» արտահայտությունը, բայց, քանի որ այն ապրանքային նշան է ստացել Սան Դիեգոյի կենտրոնում գործող HNC ընկերության կողմից՝ հիմնելու իրենց տվյալների բազայի հետազոտման կայանը[12], մասնագետները տերմինը վերանվանեցին տվյալների հետազոտում: Օգտագործվում են նաև այլ տերմիններ՝ տեղեկատվության հավաքում և պահպանում, տեղեկատվության բացահայտում և այլն։ Գրեգորի Պիացեցկի-Շապիրոն առաջարկել է «գիտելիքներ տվյալների բազաների վերաբերյալ» տերմինը նույն թեմայով առաջին սեմինարի համար (KDD-1989), և այս տերմինը ավելի տարածված դարձավ AI և մեքենայական ուսուցման ոլորտներում։ Ներկայումս, տվյալների հետազոտում տերմինը ավելի տարածված է բիզնեսի ոլորտներում[13]։

Ակադեմիական ոլորտում հետազոտությունները սկսվել են 1995 թվականից, երբ Մոնրեալում կայացավ տվյալների հետազոտման և գիտելիքների բացահայտման առաջին միջազգային համաժողովը ( KDD-95 ) ՝ AAAI-ի հովանավորությամբ։ Այն համանախագահում էին Ուսամա Ֆայադը և Ռամասամի Ութուրուսամին։ KDD միջազգային կոնֆերանսը դարձավ տվյալների հետազոտման առաջին խորհրդաժողովը, որին ներկացված հետազոտական փաստաթղթերից ընդունվել է 18%-ից քիչը։ Data Mining and Knowledge Discovery ամսագիրը ոլորտի առաջնահերթ հետազոտական ամսագիր է։

Նախապատմություն խմբագրել

Տվյալներից ընտրանքներ կազմելը դարեր շարունակ կատարվել է ձեռքով։ Տվյալներում օրինաչափությունների հայտնաբերման սկզբնական մեթոդներից են Բայեսի թեորեմը (1700-ականներ) և ռեգրեսիոն վերլուծությունը (1800-ականներ)։ Համակարգչային տեխնոլոգիաների տարածումը փոփոխել են տվյալների հավաքագրման, պահպանման և մանիպուլյացիայի ձևերը։ Տվյալների ծավալներն աճել են իրենց չափերով և բարդությամբ, ինչը տվյալների մշակման ավտոմատացման անհրաժեշտություն է առաջացրել, որի համար սկսել են օգտագործել նաև համակարգչային գիտության հայտնագործությունները, մասնավորապես՝ մեքենայական ուսուցման ոլորտում, ինչպիսիք են նեյրոնային ցանցերը, կլաստերի վերլուծությունը, գենետիկական ալգորիթմները (1950-ականներ), որոշման ծառերը և որոշումների կանոնները (1960-ականներ) և օժանդակ վեկտորային մեքենաները (1990-ականներ)։ Տվյալների հետազոտումը այս մեթոդների կիրառման միջոցով թաքնված օրինաչափությունների բացահայտումն է[14]։ Այն կապ է ստեղծում կիրառական վիճակագրության, արհեստական բանականության (որոնք սովորաբար ապահովում են մաթեմատիկական հիմքը) և տվյալների բազաների կառավարման միջև` մշակելով այն եղանակները, որոնց միջոցով տվյալները պահպանվում և ինդեքսավորվում են տվյալների բազաներում, ինչը հնարավորություն է տալիս ավելի արդյունավետ կիրառել սովորելու և հայտնագործելու ալգորիթմները, վերջինս էլ թույլ է տալիս այդպիսի մեթոդները կիրառվել ավելի մեծ թվով տվյալների վրա։

Ընթացքը խմբագրել

KDD գործընթացի հիմնական փուլերն են.

  1. Ընտրություն
  2. Նախնական վերամշակում
  3. Վերափոխում
  4. Տվյալների հետազոտում կամ մայնինգ
  5. Մեկնաբանում/գնահատում[5]։

Գոյություն ունեն նաև այլ բաժանումներ, օրինակ՝ CRISP-DM, որը սահմանում է վեց փուլ.

  1. Բիզնեսի ընկալում
  2. Տվյալների ընկալում
  3. Տվյալների նախապատրաստում
  4. Մոդելավորում
  5. Գնահատում
  6. Տեղակայում

Կա նաև ավելի պարզեցված տարբերակը՝ (1) նախնական վերամշակում, (2) տվյալների հետազոտում և (3) արդյունքների վավերացումը։

2002, 2004, 2007 և 2014 թվականներին անցկացված հարցումները ցույց են տվել, որ CRISP-DM մեթոդաբանությունը ամենաշատ օգտագործվողն է[15]։ Այս հարցումներում նշված տարբերակներից մեկը SEMMA- ն էր։ Այնուամենայնիվ, CRISP-DM օգտագործողների թիվը 3-4 անգամ ավելի շատ է։ Հետազոտողների մի քանի թիմեր հրապարակել են տվյալների հետազոտման գործընթացների մոդելների մասին ակնարկներ[16], իսկ Ազևեդոն և Սանտոսը 2008թ.-ին կատարել են CRISP-DM-ի և SEMMA-ի համեմատությունը։

Նախնական վերամշակում խմբագրել

Նախքան տվյալների հետազոտման ալգորիթմների օգտագործումը անհրաժեշտ է հավաքել նպատակային օգտագործման տվյալներ։ Քանի որ տվյալների հետազոտումը կարող է բացահայտել միայն տվյալներում առկա օրինաչափությունները, նպատակային օգտագործման տվյալները պետք է լինեն բավականաչափ մեծ, որպեսզի պարունակեն այդ օրինաչափությունները, և միևնույն ժամանակ հակիրճ, որպեսզի հետազոտումը կատարվի խելամիտ ժամկետներում։ Տվյալների հիմնական աղբյուրը տվյալների պահեստն է։ Տվյալների հետազոտումից առաջ դրանց նախամշակումը անհրաժեշտ է բազմափոփոխական տվյալների վերլուծության համար։ Նպատակային տվյալներն այնուհետև մաքրվում են։ Տվյալների մաքրումը հեռացնում է աղմուկ և/կամ բացակայող տվյալներ պարունակող դիտարկումները։

Տվյալների հետազոտում/մայնինգ խմբագրել

Տվյալների հետազոտումը ներառում է վեց հիմնական քայլ[5].

  • Անոմալիայի հայտնաբերում (հեռավորության / փոփոխության / շեղման հայտնաբերում) - Անսովոր տվյալների նույնականացում, որոնք կարող են հետաքրքրել, կամ տվյալների սխալներ, որոնք պահանջում են հետագա հետազոտություն։
  • Ասոցիացիայի կանոնների ուսուցում (կախվածության մոդելավորում) - փոփոխականների միջև փոխհարաբերությունների որոնում։ Օրինակ, սուպերմարկետը կարող է հավաքել տվյալներ հաճախորդի գնման սովորությունների վերաբերյալ։ Օգտագործելով ասոցիացիայի կանոնների ուսուցումը՝ սուպերմարկետը կարող է որոշել, թե որ ապրանքատեսակներն են հաճախ միասին ձեռք բերվում, և օգտագործել այս տեղեկատվությունը մարքեթինգային նպատակներով։ Սա երբեմն կոչվում է շուկայական զամբյուղի վերլուծություն։
  • Կլաստերի վերլուծություն - տվյալների մեջ խմբերի/կլաստերների հայտնաբերման խնդիրն է, որոնց ներսում գտնվող տվյալները ինչ-որ կերպ նման են միմյանց և տարբեր՝ մյուս խմբերին պատկանող տվյալներից։ Այդ խմբերը նախապես հայտնի չեն։
  • Դասակարգում/կլասիֆիկացիա - այս դեպքում տվյալների կառուցվածքը արդեն իսկ հայտնի է և խնդիրը այդ կառուցվածքը նոր տվյալների վրա կիրառելն է։ Օրինակ, էլեկտրոնային նամակները կարելի է որևէ ծրագրի միջոցով դասակարգել որպես սովորական նամակ կամ որպես սպամ։
  • Ռեգրեսիա - փորձում է գտնել այնպիսի ֆունկցիա, որը, գնահատելով տվյալների միջև կապը, տվյալները մոդելավորում է նվազագույն սխալով։
  • Ամփոփում - տվյալների հակիրճ նկարագրություն՝ ներառյալ դրանց պատկերում/վիզուալացում և զեկույցների ստեղծման ավելի կոմպակտ ներկայացում։

Արդյունքների վավերացում խմբագրել

 
Տվյալների օրինակ, որը ստեղծվել է բոտի միջոցով: Այն վարում է վիճակագրագետ Թայլեր Վիգենը, ով ցույց է տալիս, որ ակնհայտորեն սերտ կապ կա ուղղագրական մրցակցությունը շահող լավագույն բառի տառերի քանակի և ԱՄՆ-ում թունավոր սարդերի պատճառով մահացած մարդկանց թվաքանակի միջև: Բնականաբար, այս թրենդների նմանությունը պատահականություն է:

Տվյալների հետազոտումը կարող է ակամայից չարաշահվել, և այնուհետև կարող է հանգեցնել այնպիսի արդյունքների, որոնք թվում են նշանակալի, բայց իրականում չեն կանխատեսում ապագա պահվածքը և չեն կարող վերարտադրվել տվյալների նոր նմուշի վրա և դժվար թե օգտագործման համար պիտանի լինեն։ Սա հաճախ հանգեցնում է չափազանց շատ վարկածներ ուսումնասիրելուն և ոչ թե վիճակագրական վարկածների պատշաճ ստուգում կատարելուն։ Այս խնդրի պարզ տարբերակը մեքենայական ուսուցման մեջ հայտնի է որպես գերակատարում/օվերֆիթինգ, բայց նույն խնդիրը կարող է առաջանալ գործընթացի տարբեր փուլերում, ուստի վերապատրաստման/թեստավորման մոդելը միշտ չէ, որ կարող է կանխարգելել գերակատարումը[17]։

KDD-ի վերջին քայլը հաստատումն է, որ տվյալների հետազոտման ալգորիթմների միջոցով ստացված օրինաչափությունները տեղի ունեն նաև ավելի մեծ տվյալների համար։ Տվյալների հետազոտման ալգորիթմների կողմից հայտնաբերված ոչ բոլոր օրինաչափությունները կարող են լինել վավեր։ Երբեմն տվյալների հետազոտման ալգորիթմները կարող են վերապատրաստման տվյալների (training set) համար գտնել այնպիսի օրինաչափություններ, որոնք ընդհանուր տվյալներում առկա չեն։ Սա կոչվում է գերակատարում։ Դա հաղթահարելու համար օգտագործվում են տվյալների թեստային տվյալներ, որոնց վրա տվյալների հետազոտման ալգորիթմը նախկինում չի կիրառվել։ Գտնված օրինաչափությունները կիրառվում են այս տվյալների վրա, և արդյունքում ստացված արդյունքը համեմատվում է ցանկալի արդյունքի հետ։ Օրինակ, տվյալների հետազոտման ալգորիթմը, որը փորձում է տարբերակել սպամը սովորական էլեկտրոնային նամակից, սովորում է ընտրանքային էլեկտրոնային հասցեների վերապատրաստման նմուշի վրա։ Ստացված օրինաչափությունները կիրառվում են էլեկտրոնային փոստի թեստային նմուշի վրա, որի վրա այն չի սովորել։ Սրա ճշգրտությունը այնուհետև կարելի է չափել ճիշտ դասակարգված էլեկտրոնային նամակերի քանակով։ Ալգորիթմի գնահատման համար կարող են օգտագործվել մի քանի վիճակագրական մեթոդներ, ինչպիսիք են օրինակ ROC կորերը։

Եթե սովորված օրինաչափությունները չեն համապատասխանում ցանկալի չափանիշներին, ապա անհրաժեշտ է վերագնահատել և փոխել նախամշակման և տվյալների հետազոտման քայլերը։ Եթե սովորած օրինաչափությունները բավարարում են ցանկալի չափանիշներին, ապա վերջնական քայլը սովորած օրինաչափությունները մեկնաբանելն ու գիտելիքի վերածելն է։

Հատկանշական օգտագործումներ խմբագրել

Տվյալների հետազոտումն օգտագործվում է այն ոլորտներում, որտեղ այսօր առկա են թվային տվյալներ։ Տվյալների հետազոտման ուշագրավ օրինակներ կարելի է գտնել բիզնեսի, բժշկության, գիտության և վերահսկողության ոլորտներում։

Գաղտնիության հետ կապված մտահոգություններ և էթիկա խմբագրել

Տվյալների հետազոտումը հաճախ կապված է մարդկանց վարքի վերաբերյալ տեղեկատվության հետ (էթիկական և այլ)[18]։

Տվյալների հետազոտումը որոշ դեպքերում կարող է առաջացնել խնդիրներ գաղտնիության, օրինականության և էթիկայի հետ կապված[19]։ Մասնավորապես, երկրի անվտանգության կամ իրավապահ մարմինների համար տվյալների հետազոտությունները կարող են մտահոգությունների տեղիք տալ[20][21]։

Տվյալների հավաքագրումից առաջ անհրաժեշտ է հաշվի առնել ներքոնշյալ կետերը.

  • տվյալների հավաքագրման և հետազոտման նպատակը;
  • ինչպես են օգտագործվելու տվյալները;
  • ով հասանելիություն կունենա տվյալներին և օգտագործել դրանք;
  • անվտանգության կարգավիճակը՝ կապված տվյալներին հասանելիության հետ;
  • ինչպես կարող են հավաքագրված տվյալները թարմացվել։

Տվյալները կարող են փոփոխվել այնպես, որ պարունակեն անանուն ինֆորմացիա, որպեսզի անհատները չնույնականացվեն։ Այնուամենայնիվ, նույնիսկ «անանունացված» տվյալները կարող են պարունակել բավականաչափ տեղեկատվություն անձանց նույնականացման համար։

Տվյալների հետազոտման անվճար ծրագիր և հավելվածներ խմբագրել

Հետևյալ ծրագրերը հասանելի են անվճար / բաց աղբյուրի լիցենզիայի ներքո։ Հավելվածի աղբյուրի կոդը ևս հասանելի է հանրությանը։

  • Carrot2 . Տեքստի և որոնման արդյունքների կլաստերավորման շրջանակ։
  • Chemicalize.org . Քիմիական կառուցվածքի հետազոտման և վեբ որոնման համակարգ։
  • ELKI . Համալսարանական հետազոտական նախագիծ` կլաստերի խորը վերլուծությամբ և տարբերվող կետերի հայտնաբերման մեթոդներով, որոնք գրված են Java լեզվով։
  • GATE . Բնական լեզվի մշակման գործիք։
  • KNIME . Konstanz Information Miner՝ օգտագործողի համար հարմար և տվյալների համապարփակ վերլուծության շրջանակ։
  • Զանգվածային առցանց վերլուծություն (MOA) . Իրական ժամանակի մեծ տվյալների հոսքի հետազոտում՝ Java ծրագրավորման լեզվով։
  • MEPX - ռեգրեսիայի և դասակարգման խնդիրների խաչաձև պլատֆորմային գործիք ՝ գենետիկ ծրագրավորման տարբերակի հիման վրա։
  • ML-Flex. Ծրագրային փաթեթ, որն օգտագործողներին հնարավորություն է տալիս ինտեգրվել երրորդ կողմից ծրագրավորման ցանկացած լեզվով գրված մեքենաշինական փաթեթների հետ, կատարել կլաստերային վերլուծություններ և պատրաստել դասակարգման ստացված արդյունքների վերաբերյալ զեկույցներ HTML ֆորմատով։
  • mlpack . պատրաստի օգտագործման մեքենայական ալգորիթմների հավաքածու, որը գրված է C ++ լեզվով։
  • NLTK ( Բնական լեզվի գործիքակազմ ). Սիմվոլների և վիճակագրական բնական լեզվի մշակման համար Python ծրագրավորման լեզվով գրված գրադարանների և ծրագրերի հավաքակազմ։
  • OpenNN . Նեյրոնային ցանցերի բաց գրադարան։
  • Orange . Բաղադրիչների վրա հիմնված տվյալների հետազոտման և մեքենայական ուսուցման ծրագրային հավաքակազմ, որը գրված է Python լեզվով։
  • R. Ծրագրավորման լեզու և ծրագրաային միջավայր վիճակագրական հաշվարկների, տվյալների հետազոտման և գրաֆիկայի համար։ Այն GNU ծրագրի մի մասն է։
  • scikit-Learn- ը Python ծրագրավորման լեզվի համար բաց գրադարան է։
  • Torch . Խորը ուսուցման համար նախատեսված բաց գրադարան՝ Lua ծրագրավորման լեզվի և գիտական հաշվարկների շրջանակի համար՝ մեքենայական ուսուցման ալգորիթմների լայն աջակցությամբ։
  • UIMA . UIMA- ն (Չկառուցված տեղեկատվության կառավարման համակարգ) չկառուցված բովանդակության վերլուծության համար բաղկացուցիչ հիմք է, ինչպիսիք են տեքստը, աուդիոն և վիդեոն, որոնք ի սկզբանե մշակվել են IBM-ի կողմից։
  • Weka . Java- ի ծրագրավորման լեզվով գրված մեքենայական ուսուցման ծրագրերի խումբ է։

Ծանոթագրություններ խմբագրել

  1. «Data Mining Curriculum». ACM SIGKDD. 2006 թ․ ապրիլի 30. Վերցված է 2014 թ․ հունվարի 27-ին.
  2. Clifton, Christopher (2010). «Encyclopædia Britannica: Definition of Data Mining». Վերցված է 2010 թ․ դեկտեմբերի 9-ին.
  3. Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). «The Elements of Statistical Learning: Data Mining, Inference, and Prediction». Արխիվացված է օրիգինալից 2009 թ․ նոյեմբերի 10-ին. Վերցված է 2012 թ․ օգոստոսի 7-ին.
  4. Han, Kamber, Pei, Jaiwei, Micheline, Jian (2011 թ․ հունիսի 9). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.{{cite book}}: CS1 սպաս․ բազմաթիվ անուններ: authors list (link)
  5. 5,0 5,1 5,2 Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). «From Data Mining to Knowledge Discovery in Databases» (PDF). Վերցված է 2008 թ․ դեկտեմբերի 17-ին.
  6. Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. էջ 5. ISBN 978-1-55860-489-6. «Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long»
  7. Witten, Ian H.; Frank, Eibe; Hall, Mark A. (2011 թ․ հունվարի 30). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
  8. Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). «WEKA Experiences with a Java open-source project». Journal of Machine Learning Research. 11: 2533–2541. «the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons.»
  9. Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181-193. doi:10.1007/s11628-006-0014-7
  10. Lovell, Michael C. (1983). «Data Mining». The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403.
  11. Charemza, Wojciech W.; Deadman, Derek F. (1992). «Data Mining». New Directions in Econometric Practice. Aldershot: Edward Elgar. էջեր 14–31. ISBN 1-85278-461-X.
  12. Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
  13. Piatetsky-Shapiro, Gregory; Parker, Gary (2011). «Lesson: Data Mining, and Knowledge Discovery: An Introduction». Introduction to Data Mining. KD Nuggets. Վերցված է 2012 թ․ օգոստոսի 30-ին.
  14. Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
  15. Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll
  16. Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi:10.1017/S0269888906000737
  17. Hawkins, Douglas M (2004). «The problem of overfitting». Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005.
  18. Seltzer, William (2005). «The Promise and Pitfalls of Data Mining: Ethical Issues» (PDF). ASA Section on Government Statistics. American Statistical Association.
  19. Pitts, Chip (2007 թ․ մարտի 15). «The End of Illegal Domestic Spying? Don't Count on It». Washington Spectator. Արխիվացված է օրիգինալից 2007 թ․ նոյեմբերի 28-ին.
  20. Taipale, Kim A. (2003 թ․ դեկտեմբերի 15). «Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data». Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782. Արխիվացված է օրիգինալից 2014 թ․ նոյեմբերի 5-ին. Վերցված է 2020 թ․ հունվարի 26-ին.
  21. Resig, John. «A Framework for Mining Instant Messaging Services» (PDF). Վերցված է 2018 թ․ մարտի 16-ին.