Аналітичні системи та аналітика

22
АНАЛІТИЧНІ СИСТЕМИ ТА АНАЛІТИКА Василенко Євген datastory.org.ua [email protected]

Transcript of Аналітичні системи та аналітика

АНАЛІТИЧНІСИСТЕМИ ТААНАЛІТИКА

Василенко Євген[email protected]

Аналітика в сучасному світі

●Джозеф Джаггер проти казино Beaux-Arts (Монте-Карло, 1875) — загальний виграш у сучасному еквіваленті склав більше 6 млн. USD

●Р.Д. Кларк та система наведення ракет ФАУ-2 (Лондон, 1944); доведено випадковість попадань, що було свідченням відсутності у ракет точної системи наведення

●Стівен Дойг — стаття «Що пішло не так?» (Майамі Геральд, 1992): основною причиною значних матеріальних збитків від урагану Ендрю було тотальне порушення будівельних норм

●Moneyball — аналітика результатів гри бейсбольних гравців; в 2002 році команда Oakland Athletics виграє 20 ігор поспіль

2

Обробка інформації в сучасній науці

●математична статистика (Mathematical Statistics)

●прикладна статистика (Applied Statistics)

●дослідницький аналіз даних (Data Mining)

●дослідницький аналіз текстів (Text Mining)

●машинне навчання (Machine Learning)

●«великі дані» (Big Data)

●наука про дані, даталогія (Data Science, Datalogy)

3

Специфіка сучасної аналітики

●дані мають просторово-часові реквізити

●за наявності великого масиву даних — аналіз можна виконувати «нескінченно»

●об’єднання даних із різних джерел призводить до синергетичного ефекту їхньої корисності

●аналітичні інструменти відкриті та доступні: більшість програмного забезпечення з відкритим програмним кодом

●візуалізація обов’язкова на всіх етапах аналізу

●у багатьох галузях застосовуються схожі методики: маркетингові дослідження, соціологічні дослідження, екологічний моніторинг, електоральні дослідження

4

Статистичні пакетиStatistica

●Розробник: StatSoft, Dell●Операційна система: Windows●Тип ліцензії: shareware●Сайт проекту: www.statsoft.com

5

Статистичні пакети

●Розробник: світова спільнота●Операційна система: кросплатформний●Тип ліцензії: GNU GPL●Сайт проекту: gretl.sourceforge.net

6

Статистичні пакетиMicrosoft Excel

●Розробник: Microsoft●Операційна система: Windows●Тип ліцензії: shareware●Сайт проекту: products.office.com/ru-ru/excel

7

Статистичні пакетиApache OpenOffice.org Calc

●Розробник: Oracle, Apache Software●Операційна система: кросплатформений●Тип ліцензії: Apache●Сайт проекту: www.openoffice.org/product/calc.html

Статистичні середовища

●Розробник: John W. Eaton●Операційна система: кросплатформений●Тип ліцензії: GNU GPL●Сайт проекту: www.gnu.org/software/octave

9

Статистичні середовища

●Розробник: SPSS, IBM●Операційна система: кросплатформений●Тип ліцензії: shareware●Сайт проекту:www-01.ibm.com/software/analytics/spss

10

Статистичні середовища

●Розробник: світова спільнота●Операційна система: кросплатформений●Тип ліцензії: GNU GPL●Сайт проекту: www.r-project.org

11

Технології взаємозалежні!12

●апаратно-програмний комплекс Big Data Appliance (Oracle) — містить інтегровані інструменти R та Apache Hadoop

●Oracle Database — містить інтегрований модуль R

●… Statistica, SPSS, SAS, Netezza, Microsoft Azure — містять або інтегровані модулі, або мають плагіни для підтримки R

●геоінформаційна система QGIS — містить модулі підтримки R та багатьох форматів баз даних

●всі аналітичні інструменти мають модулі для роботи зі «сторонніми» форматами даних

Збирання даних

Підготовка

ВІЗУАЛІЗАЦІЯ

Описовастатистика

Data Miningта інші

Аналіз

«Постаналітика»

Послідовність роботи з даними

середні значення;мінімум;

максимум;мінливість...

відповідь на питання«що відбувається?»

асоціація;класифікація;послідовність;кластеризація;прогнозування

відповідь на питання«чому так

відбувається?»та «що далі?»

інколи до90% часу

13

Де взяти дані???14

●сайти підприємств та установ

●портали відкритих даних: data.gov.ua; ukrcensus.gov.ua; datahub.io (здебільшого — технологія CKAN)

●запити на доступ до інформації: dostup.pravda.com.ua

●попросити у друзів...

Візуалізація даних15

Інтернет-сервіси для візуалізаціїDatawrapper

16

datawrapper.de — он-лайн-інструмент для візуалізації табличних даних

Числова статистика17

Нечислова статистика

Survived: No YesClass Sex Age 1st Male Child 0 5

Adult 118 57Female Child 0 1

Adult 4 1402nd Male Child 0 11

Adult 154 14Female Child 0 13

Adult 13 803rd Male Child 35 13

Adult 387 75Female Child 17 14

Adult 89 76Crew Male Child 0 0

Adult 670 192Female Child 0 0

Adult 3 20

●жінок з 1-го та 2-го класів вижило більше, ніж за випадкових обставин●майже половина жінок з 3-го класу — вижили (більше, ніж очікувалось)●більшість дітей перебувало у каютах 3-го класу●загалом дітей вижило більше, ніж за випадкових обставин●чоловіків з екіпажу Титаніка загинуло більше, ніж за випадкових обставин

18

«Прокляття розмірності»19

*threeflower.livejournal.com/20116.html

●чим більше атрибутів залучається, тим меншою стає область простору, який охоплюється при заданій відстані пошуку●при збільшенні кількості атрибутів — необхідно збільшувати відстань пошуку, щоб охопити задану кількість об’єктів

Методи зниження розмірності та класифікації20

Висновки

●аналітика необхідна як для власного розуміння, так і для доведення даних кінцевому споживачу

●машинне зберігання великих масивів інформації значно полегшуе всебічне використання аналітичних методів

●аналітичні інструменти відкриті та доступні

●візуалізація обов’язкова на всіх етапах аналізу

●відбувається уніфікація методик у різних галузях науки та техніки

●великий масив вільно доступної інформації дозволяє швидко впровадити методики «власними силами»

●відкриття раніше невідомих закономірностей приносить дуже значний ефект

21

22

ДЯКУЮ ЗАУВАГУ!