В минулому процес видобутку золота в гірській промисловості складався з вибору ділянки землі та подальшого її просіювання багато разів



Скачати 127.9 Kb.
Дата конвертації05.03.2017
Розмір127.9 Kb.

5.1. Що таке Data Mining?


«За останні роки, коли, прагнучи до підвищення ефективності і прибутковості бізнесу, при створенні БД всі стали користуватися засобами обробки цифрової інформації, з'явився і побічний продукт цієї активності - гори зібраних даних. І тепер все більше поширюється ідея про те, що ці гори повні золота».

В минулому процес видобутку золота в гірській промисловості складався з вибору ділянки землі та подальшого її просіювання багато разів. Іноді шукач знаходив кілька цінних самородків або міг натрапити на золотоносну жилу, але в більшості випадків він взагалі нічого не знаходив і йшов далі до іншого багатообіцяючого місця або ж зовсім кидав добувати золото, вважаючи це заняття марною тратою часу.

Сьогодні з'явилися нові наукові методи та спеціалізовані інструменти, які зробили гірську промисловість значно точною і продуктивною. Data Mining для даних розвинувся майже в такий же спосіб. Старі методи, що застосовувалися математиками і статистиками, забирали багато часу, щоб в результаті отримати конструктивну та корисну інформацію.

Сьогодні на ринку представлено багато інструментів, що містять різні методи, які роблять Data Mining прибутковою справою і більш доступною для більшості компаній.

Термін Data Mining отримав свою назву з двох понять: пошуку цінної інформації у великій базі даних (data) і видобутку гірської руди (mining). Обидва процеси вимагають або просіювання величезної кількості сирого матеріалу, або розумного дослідження і пошуку шуканих цінностей.

Термін Data Mining часто перекладається як видобуток даних, вилучення інформації, розкопування даних, інтелектуальний аналіз даних, засоби пошуку закономірностей, вилучення знань, аналіз шаблонів, «вилучення зерен знань з гір даних», розкопування знань в базах даних, інформаційне дослідження даних, «промивання» даних. Поняття «виявлення знань у базах даних» (Knowledge Discovery in Databases, KDD) можна вважати синонімом Data Mining.

Поняття Data Mining, що з'явилося в 1978 році, набуло високої популярності в сучасному трактуванні приблизно з першої половини 1990 -х років. До цього часу обробка та аналіз даних здійснювалися в рамках прикладної статистики, при цьому в основному вирішувалися завдання обробки невеликих баз даних.

Що ж таке Data Mining ?


Data Mining - мультидисциплінарна область, що виникла і розвивається на базі таких наук як прикладна статистика, розпізнавання образів, штучний інтелект, теорія баз даних тощо.

Data Mining як мультидисциплінарна область

Data Mining


Статистика

Машинне навчання

Штучний інтелект

Розпізнавання образів

Теорія баз даних

Алгоритмізація

Візуалізація

Інші дисципліни



Наведемо короткий опис деяких дисциплін, на стику яких з'явилася технологія Data Mining.

Поняття Статистики


Статистика - це наука про методи збору даних, їх обробки і аналізу для виявлення закономірностей, що притаманні досліджуваному явищу. Статистика є сукупністю методів планування експерименту, збору даних, їх подання та узагальнення, а також аналізу та отримання висновків на підставі цих даних. Статистика оперує даними, отриманими в результаті спостережень або експериментів.

Поняття Машинного навчання


Машинне навчання можна охарактеризувати як процес отримання програмою нових знань. Мітчелл в 1996 році дав таке визначення: «Машинне навчання - це наука, яка вивчає комп'ютерні алгоритми, що автоматично покращуються під час роботи». Одним з найбільш популярних прикладів алгоритму машинного навчання є нейронні мережі.

Поняття Штучного інтелекту


Штучний інтелект - науковий напрямок, в рамках якого ставляться і вирішуються завдання апаратного або програмного моделювання видів людської діяльності, що традиційно вважаються інтелектуальними.

Термін інтелект (intelligence) походить від латинського intellectus, що означає розум, розум, розум, розумові здібності людини. Відповідно, штучний інтелект (AI, Artificial Intelligence) тлумачиться як властивість автоматичних систем брати на себе окремі функції інтелекту людини. Штучним інтелектом називають властивість інтелектуальних систем виконувати творчі функції, які традиційно вважаються прерогативою людини.

Кожен з напрямків, що сформували Data Mining, має свої особливості. Проведемо порівняння з деякими з них.

Порівняння статистики, машинного навчання та Data Mining


  • Статистика

    • Більше, ніж Data Mining, базується на теорії.

    • Більше зосереджується на перевірці гіпотез.

  • Машинне навчання

    • Більше евристичності.

    • Концентрується на поліпшенні роботи агентів навчання.

  • Data Mining.

    • Інтеграція теорії і евристик.

    • Сконцентрована на єдиному процесі аналізу даних, містить очищення даних, навчання, інтеграцію та візуалізацію результатів.

Розвиток технології баз даних


Поняття Data Mining тісно пов'язане з технологіями баз даних і поняттям дані.

1960-і рр..


У 1968 році була введена в експлуатацію перша промислова СУБД система IMS фірми IBM.

1970-і рр..


У 1975 році з'явився перший стандарт асоціації по мовах систем обробки даних - Conference on Data System Languages ​​(CODASYL), який визначив ряд фундаментальних понять в теорії систем баз даних, які досі є основоположними для мережної моделі даних. В подальший розвиток теорії баз даних великий внесок було зроблено американським математиком Е.Ф. Коддом, який є творцем реляційної моделі даних.

1980-і рр..


Протягом цього періоду багато дослідників експериментували з новим підходом у напрямках структуризації баз даних і забезпечення до них доступу. Метою цих пошуків було отримання реляційних прототипів для більш простого моделювання даних. В результаті, в 1985 році була створена мова SQL. На тепер практично всі СУБД забезпечують даний інтерфейс.

1990-і рр..


З'явилися специфічні типи даних – «графічний образ», «документ», «звук», «карта». Типи даних для часу, інтервалів часу, символьних рядків з двобайтовим поданням символів були додані до мови SQL. З'явилися технології DataMining, сховища даних, мультимедійні бази даних і web-бази даних.

Виникнення і розвиток Data Mining зумовлене різними факторами, основними серед яких є наступні:



  • Вдосконалення апаратного та програмного забезпечення.

  • Вдосконалення технологій зберігання і запису даних.

  • Накопичення великої кількості ретроспективних даних.

  • Вдосконалення алгоритмів обробки інформації.

Поняття Data Mining


Data Mining - це процес підтримки прийняття рішень, заснований на пошуку в даних схованих закономірностей (шаблонів інформації).

Технологію Data Mining досить точно визначає Григорій Піатецкій - Шапіро (Gregory Piatetsky - Shapiro) - один із засновників цього напрямку:



Data Mining - це процес виявлення в сирих даних раніше невідомих, нетривіальних, практично корисних і доступних для інтерпретації знань, необхідних для прийняття рішень в різних сферах людської діяльності.

Суть та мета технології Data Mining можна охарактеризувати так: це технологія, яка призначена для пошуку у великих обсягах даних неочевидних, об'єктивних і корисних на практиці закономірностей.



  • Неочевидних - це означає, що знайдені закономірності не виявляються стандартними методами обробки інформації або експертним шляхом.

  • Об'єктивних - це означає, що виявлені закономірності будуть повністю відповідати дійсності, на відміну від експертної думки, яка завжди є суб'єктивною.

  • Практично корисних - це означає, що висновки мають конкретне значення, якому можна знайти практичне застосування.

Знання - сукупність відомостей, яка утворює цілісний опис, що відповідає деякому рівню обізнаності про досліджувані питання, предмети, проблеми тощо.

Використання знань (knowledge deployment) означає дійсне застосування знайдених знань для досягнення конкретних переваг (наприклад, в конкурентній боротьбі за ринок).


Наведемо ще кілька визначень поняття Data Mining.


  • Data Mining - це процес виділення з даних неявної і неструктурованої інформації та подання її у вигляді, придатному для використання.

  • Data Mining - це процес виділення, дослідження та моделювання великих обсягів даних для виявлення невідомих до цього структур (patterns) з метою досягнення переваг у бізнесі (визначення SAS Institute).

  • Data Mining - це процес, мета якого - виявити нові значущі кореляції, зразки і тенденції в результаті просіювання великого обсягу збережених даних з використанням методик розпізнавання зразків плюс застосування статистичних і математичних методів (визначення Gartner Group).

В основу технології Data Mining покладено концепцію шаблонів (patterns), які представляють собою закономірності, що притаманні підвибіркам даних, які можуть бути виражені у формі, зрозумілій людині.

«Mining» англійською означає «видобуток корисних копалин», а пошук закономірностей у величезній кількості даних дійсно відповідає цьому процесу.

Мета пошуку закономірностей - подання даних у вигляді, що відбиває шукані процеси. Побудова моделей прогнозування також є метою пошуку закономірностей.

Data Mining як частина ринку інформаційних технологій

Класифікація аналітичних систем


Агентство Gartner Group, що займається аналізом ринків інформаційних технологій, в 1980 -х роках ввело термін «Business Intelligence» (BI), ділової інтелект або бізнес-інтелект. Цей термін запропоновано для опису різних концепцій і методів, які покращують бізнес рішення шляхом використання систем підтримки прийняття рішень.

У 1996 році агентство уточнило визначення даного терміну.



Business Intelligence - програмні засоби, що функціонують в рамках підприємства і забезпечують функції доступу і аналізу інформації, яка знаходиться в сховищі даних, а також забезпечити прийняття правильних і обґрунтованих управлінських рішень.

Поняття BI об'єднує в собі різні засоби і технології аналізу та обробки даних масштабу підприємства.

На основі цих засобів створюються BI-системи, мета яких - підвищити якість інформації для прийняття управлінських рішень.

BI-системи також відомі під назвою Систем Підтримки Прийняття Рішень (СППР, DSS, Decision Support System). Ці системи перетворюють дані в інформацію, на основі якої можна приймати рішення, тобто підтримуючу прийняття рішень.

Gartner Group визначає склад ринку систем Business Intelligence як набір програмних продуктів наступних класів:


  • Засоби побудови сховищ даних (data warehousing, СД).

  • Системи оперативної аналітичної обробки (OLAP).

  • Інформаційно-аналітичні системи (Enterprise Information Systems, EIS).

  • Засоби інтелектуального аналізу даних (data mining).

  • Інструменти для виконання запитів і побудови звітів (query and reporting tools).

Класифікація Gartner базується на методі функціональних завдань, де програмні продукти кожного класу виконують певний набір функцій або операцій з використанням спеціальних технологій.

Думка експертів про Data Mining


Керівництво з придбання продуктів Data Mining (Enterprise Data Mining Buying Guide) компанії Aberdeen Group :

«Data Mining - технологія видобутку корисної інформації з баз даних. Однак у зв'язку з істотними відмінностями між інструментами, досвідом і фінансовим станом постачальників продуктів, підприємствам необхідно ретельно оцінювати ймовірних розробників Data Mining і партнерів.

Щоб максимально використовувати потужність масштабованих інструментів Data Mining комерційного рівня, підприємству необхідно вибрати, очистити і перетворити дані, іноді інтегрувати інформацію, добуту з зовнішніх джерел, і встановити спеціальне середовище для роботи Data Mining алгоритмів.

Результати Data Mining у великій мірі залежать від рівня підготовки даних, а не від «чудових можливостей» якогось алгоритму або набору алгоритмів. Близько 75 % роботи над Data Mining полягає в зборі даних, який здійснюється ще до того, як запускаються самі інструменти. Неграмотно застосувавши деякі інструменти, підприємство може безглуздо розтратити свій потенціал, а іноді і мільйони доларів».

Думка Херба Едельштайн (Herb Edelstein), відомого у світі експерта в області Data Mining, Сховищ даних і CRM:

«Нещодавнє дослідження компанії Two Crows показало, що Data Mining все ще знаходиться на ранній стадії розвитку. Багато організацій цікавляться цією технологією, але лише деякі активно впроваджують такі проекти. Вдалося з'ясувати ще один важливий момент: процес реалізації Data Mining на практиці виявляється більш складним, ніж очікувався.

IT- команди захопилися міфом про те, що засоби Data Mining є простими у використанні. Вважається, що якщо запустити такий інструмент на терабайтной базі даних, тоді миттєво з'явиться корисна інформація. Насправді, успішний Data Mining-проект вимагає розуміння суті діяльності, знання даних і інструментів, а також процесу аналізу даних».

Перш ніж використовувати технологію Data Mining, необхідно ретельно проаналізувати її проблеми, обмеження і критичні питання, з нею пов'язані, а також зрозуміти, чого ця технологія не може.


Data Mining не може замінити аналітика


Технологія не може дати відповіді на ті питання, які не були задані. Вона не може замінити аналітика, а лише надає йому потужний інструмент для полегшення і покращення його роботи.

Складність розробки та експлуатації додатків Data Mining


Оскільки дана технологія є мультидисциплінарної областю, для розробки програми, що містить Data Mining, необхідно задіяти фахівців з різних областей, а також забезпечити їх якісну взаємодію.

Кваліфікація користувача


Різні інструменти Data Mining мають різну ступінь «дружності» інтерфейсу і вимагають певної кваліфікації користувача. Тому програмне забезпечення повинне відповідати рівню підготовки користувача. Використання Data Mining має бути нерозривно пов'язане з підвищенням кваліфікації користувача. Однак фахівців з Data Mining, які б добре зналися на бізнесі, поки ще мало.

Витяг корисних відомостей неможливо без чіткого розуміння суті даних


Необхідним є ретельний вибір моделі та інтерпретація залежностей або шаблонів, які виявлені. Тому робота з такими засобами вимагає тісної співпраці між експертом в предметній області і фахівцем з інструментів Data Mining. Побудовані моделі повинні бути грамотно інтегровані в бізнес-процеси для можливості оцінки та оновлення моделей. Останнім часом системи Data Mining поставляються як частина технології сховищ даних.

Складність підготовки даних


Успішний аналіз вимагає якісної предобработки даних. За твердженням аналітиків і користувачів баз даних, процес предобработки може зайняти до 80 % відсотків всього Data Mining процесу.

Таким чином, щоб технологія працювала на себе, потрібно багато зусиль і часу, які йдуть на попередній аналіз даних, вибір моделі та її коригування.


Великий відсоток помилкових, недостовірних або безглуздих результатів


За допомогою Data Mining можна відшукувати дійсно дуже цінну інформацію, яка спроможна згодом надати великі дивіденди у вигляді фінансової та конкурентної вигоди.

Однак Data Mining досить часто робить багато помилкової і незначущої інформації. Багато фахівців стверджують, що Data Mining-засоби можуть видавати велику кількість статистично недостовірних результатів. Щоб цього уникнути, необхідною є перевірка адекватності отриманих моделей на тестових даних.


Висока вартість


Якісна Data Mining-програма може коштувати досить дорого для компанії. Варіантом служить придбання вже готового рішення з попередньою перевіркою його використання, наприклад на демо-версії з невеликою вибіркою даних.

Наявність достатньої кількості репрезентативних даних


Засоби Data Mining, на відміну від статистичних, теоретично не вимагають наявності строго визначеної кількості ретроспективних даних. Ця особливість може стати причиною виявлення недостовірних, хибних моделей і, як результат, прийняття на їх основі неправильних рішень. Необхідно здійснювати контроль статистичної значущості виявлених знань.

Відмінності Data Mining від інших методів аналізу даних


Традиційні методи аналізу даних (статистичні методи) і оперативної аналітичної обробки даних OLAP (OnLine Analytical Processing) в основному орієнтовані на перевірку заздалегідь сформульованих гіпотез (verification - driven data mining) і на «грубий» розвідувальний аналіз, що становить основу OLAP, в той час як одним з основних постулатів Data Mining є пошук неочевидних закономірностей. Інструменти Data Mining можуть знаходити такі закономірності самостійно і також самостійно будувати гіпотези про взаємозв'язки. Оскільки саме формулювання гіпотези щодо залежностей є найскладнішим завданням, перевага Data Mining в порівнянні з іншими методами аналізу є очевидною.

Більшість статистичних методів для виявлення взаємозв'язків в даних використовують концепцію усереднення за вибіркою, що приводить до операцій над неіснуючими величинами, тоді як Data Mining оперує реальними значеннями.

OLAP більше підходить для розуміння ретроспективних даних, Data Mining спирається на ретроспективні дані для отримання відповідей на питання про майбутнє.

Перспективи технології Data Mining


Потенціал Data Mining дає «зелене світло» для розширення меж застосування технології. Щодо перспектив Data Mining можливі наступні напрямки розвитку:

  • Виділення типів предметних областей з відповідними їм евристиками, формалізація яких полегшить вирішення відповідних завдань Data Mining, що відносяться до цих областей.

  • Створення формальних мов і логічних засобів, за допомогою яких будуть формалізовані міркування і автоматизація яких стане інструментом вирішення завдань Data Mining в конкретних предметних областях.

  • Створення методів Data Mining, здатних не тільки отримувати із даних закономірності, але і формувати певні теорії, які спираються на емпіричні дані.

  • Подолання істотного відставання можливостей інструментальних засобів Data Mining від теоретичних досягнень у цій галузі.

Якщо розглядати майбутнє Data Mining в короткостроковій перспективі, то очевидно, що розвиток цієї технології найбільш направлено до областей, пов'язаних з бізнесом.

В короткостроковій перспективі продукти Data Mining можуть стати такими ж звичайними і необхідними, як електронна пошта, і, наприклад, використовуватися користувачами для пошуку найнижчих цін на певний товар або найбільш дешевих квитків.

В довгостроковій перспективі майбутнє Data Mining є дійсно захоплюючим - це може бути пошук інтелектуальними агентами як нових видів лікування різних захворювань, так і нового розуміння природи всесвіту.

Однак Data Mining містить у собі й потенційну небезпеку - адже все більша кількість інформації стає доступним через Інтернет, в тому числі і відомості приватного характеру, і все більше знань з неї можливо добути.

Не так давно найбільший онлайновий магазин «Amazon» опинився в центрі скандалу з приводу отриманого ним патенту «Методи та системи допомоги користувачам при покупці товарів», який являє собою не що інше як черговий продукт Data Mining, призначений для збору персональних даних про відвідувачів магазину. Нова методика дозволяє прогнозувати майбутні запити на підставі фактів покупок, а також робити висновки про їх призначення.

Мета даної методики - отримання якомога більшої кількості інформації про клієнтів, в тому числі і приватного характеру (стать, вік, уподобання тощо). Таким чином, збираються дані про приватне життя покупців магазину, а також членів їх сімей, включаючи дітей. Останнє заборонено законодавством багатьох країн - там збір інформації про неповнолітніх можливий тільки з дозволу батьків.

Дослідження відзначають, що існують як успішні рішення, які використовують Data Mining, так і невдалий досвід застосування цієї технології. Області, де застосування технології Data Mining, швидше за все, будуть успішними, мають такі особливості:


  • Вимагають рішень, заснованих на знаннях.

  • Мають непостійну навколишнє середовище.

  • Мають доступні, достатні і значущі дані.

  • Забезпечують високі дивіденди від правильних рішень.

Існуючі підходи до аналізу


Досить довго дисципліна Data Mining не визнавалася повноцінною самостійною областю аналізу даних, іноді її називають «задвірками статистики» (Pregibon, 1997).

На сьогоднішній день визначилося кілька точок зору на Data Mining. Прихильники однієї з них вважають Data Mining міражем, що відволікає увагу від класичного аналізу даних. Прихильники іншого напрямку - це ті, хто приймає Data Mining як альтернативу традиційному підходу до аналізу. Є й середина, де розглядається можливість спільного використання сучасних досягнень в області Data Mining і класичного статистичного аналізу даних.



Технологія Data Mining постійно розвивається, привертає до себе все більший інтерес як з боку наукового світу, так і з боку застосування досягнень технології в бізнесі.

  • Щорічно проводиться багато наукових та практичних конференцій, присвячених Data Mining, одна з яких - Міжнародна конференція з Knowledge Discovery Data Mining (International Conferences on Knowledge Discovery and Data Mining).

  • Серед найбільш відомих WWW- джерел - сайт www.kdnuggets.com, який веде один із засновників Data Mining Григорій Піатецкій - Шапіро.

  • Періодичні видання по Data Mining: Data Mining and Knowledge Discovery, KDD Explorations, ACM- TODS, IEEE - TKDE, JIIS, J. ACM, Machine Learning, Artificial Intelligence.

  • Матеріали конференцій: ACM- SIGKDD, IEEE - ICDM, SIAM -DM, PKDD, PAKDD, Machine learning (ICML), AAAI, IJCAI, COLT (Learning Theory).




База даних захищена авторським правом ©lecture.in.ua 2016
звернутися до адміністрації

    Головна сторінка