Чи необхідно вам вивчати мову R?

Доводи на користь R
Що таке R і для чого він призначений
Статистична революція: S і розвідувальний аналіз даних
Цитата з книги: Graphical Methods for Data Analysis (Графічні методи аналізу даних)
Мова з характером: S, S-Plus і перевірка гіпотез
Що відбувається при використанні R
Малюнок 1. Робочий простір R
Лістинг 1. Старт сеансу R
Малюнок 2. Старт сеансу і відповіді R
Лістинг 2. ящикового діаграма (box plot) на мові R
Малюнок 3. Представлення у вигляді ящика діаграми
Лістинг 3. Проста функція на мові R
Чи потребує R в потужній апаратних засоби?
R залишається актуальним і в 21 столітті
Інструментарій R-project Toolkit на платформі InfoSphere Streams
Мова R і платформа InfoSphere Streams
Для яких випадків R не годиться
Висновок
Ресурси для скачування

Чотири серйозних аргументу на користь того, щоб випробувати цю платформу з відкритим вихідним кодом для аналізу даних

Ви напевно чули про R. Можливо, ви читали відповідну статтю Сема Сиверта (Sam Siewert) під назвою Великі дані в хмарі . Ви знаєте, що R - це мова програмування і що він має певне відношення до статистики, але чи підходить він вам?

Доводи на користь R

R - мова, орієнтований на статистику. Його можна розглядати як конкурента для таких аналітичних систем, як SAS Analytics, не кажучи вже про таких більш простих пакетах, як StatSoft STATISTICA або Minitab. Багато професійних статистики і методисти в урядових організаціях, в комерційних компаніях і у фармацевтичній галузі вирішують свої завдання за допомогою таких продуктів, як IBM SPSS або SAS, без написання будь-якого коду на мові R. Таким чином, в значній мірі рішення про вивчення і використанні R - це питання корпоративної культури і професійних переваг стосовно робочих інструментів. У своїй статистичної консультаційній практиці я використовую кілька інструментів, проте велика частина того, що я роблю, зроблена на R. Наступні приклади пояснюють, чому справа йде саме таким чином.

R - це потужний скриптова мова. Нещодавно мене попросили проаналізувати результати одного масштабного дослідження. Дослідники переглянули 1600 наукових робіт і закодували їх вміст за кількома критеріями - кількість критеріїв було дійсно великим, особливо з урахуванням множинних варіацій і розгалужень. Після перенесення в електронну таблицю Microsoft® Excel® ці дані містили понад 8000 стовпців, більшість з яких були порожніми. Дослідники хотіли підраховувати загальну кількість за різними категоріями та під різними заголовками. R є потужним скриптовою мовою і підтримує Perl-подібні регулярні вирази для обробки тексту. Для обробки невпорядкованих даних потрібні можливості мови програмування; продукти SAS і SPSS мають скриптові мови для задач, для вирішення яких недостатньо спадаючого меню, однак R був створений саме як мова програмування і тому є більш придатним інструментом для цієї мети.
R - лідер напрямки. Багато нові розробки в області статистики спочатку з'являються як пакети для платформи R ( "R-пакети") і тільки потім приходять на комерційні платформи. Нещодавно я отримала дані медичного дослідження по повторних звернень пацієнтів. По кожному пацієнту в цих даних було кількість елементів лікування, запропонованих лікарем, і кількість елементів, які реально запам'ятав пацієнт. Природною моделлю для цієї ситуації є т. Н. бета-біноміальний розподіл. Воно відоме з 1950-х років, однак процедури оцінки, що зв'язують модель з важливими нас ковариацию, з'явилися лише недавно. Такі дані зазвичай обробляються за допомогою т.зв. GEE-методів (Generalized Estimating Equations), проте ці методи є асимптотическими і виходять із припущення, що вибірка має великі розміри. Мені була потрібна узагальнена лінійна модель з бета-біноміальним розподілом. Один з недавно з'явилися R-пакетів здійснює оцінку відповідно до цієї моделі: пакет betabinom, автором якого є Бен Болкер (Ben Bolker). Інструмент SPSS не має таких можливостей.
Інтеграція із засобами публікації документів. R органічно інтегрується з системами публікації документів, що дозволяє вбудовувати статистичні результати і графіку з середовища R в документи публікаційного якості. Ця можливість не потрібна абсолютно всім, однак якщо ви хочете написати книгу про своє аналізі даних або просто не любите копіювати свої результати в документи текстового процесора, то найкоротший і елегантний маршрут складається у використанні R і LaTeX.
Безкоштовність Я - власник невеликої компанії, тому мені подобається, що R поширюється вільно. Навіть для більш великого підприємства досить непогано, коли в разі залучення потрібного фахівця на тимчасовій основі воно здатне негайно надати такому фахівцю робочу станцію з передовим аналітичним програмним забезпеченням. При цьому немає ніякої необхідності хвилюватися про бюджет.

Що таке R і для чого він призначений

140-символьне пояснення

R - це реалізація мови S з відкритим вихідним кодом, що представляє собою середовище програмування для аналізу даних і для роботи з графікою.

В якості мови програмування R подібний багатьох інших мов. Будь-яка людина, який коли-небудь писав програмний код, знайде в R безліч знайомих моментів. Відмінні риси R лежать в статистичної філософії, яку він сповідує.

Статистична революція: S і розвідувальний аналіз даних

Комп'ютери завжди були ефективним інструментом для обчислень - але лише після того, як хтось написав і налагодив програму для виконання потрібного алгоритму. Однак в 1960-1970-х роках комп'ютери були ще дуже слабкі в області відображення інформації, особливо графічної. Ці технічні обмеження, поряд з тенденціями в статистичної теорії, привели до того, що практика статистики, як і підготовка статистиків, орієнтувалися на побудову моделей і на перевірку гіпотез. У цьому світі дослідники пропонували гіпотези, ретельно продумували експерименти, налаштовували моделі і проводили випробування. Подібний підхід реалізований в програмних засобах, подібних SPSS, які базуються на електронних таблицях і управляються за допомогою меню. Фактично перші версії програмних продуктів SPSS і SAS Analytics складалися з підпрограм, які можна було викликати з основної програми (на Fortran або іншою мовою) з метою підгонки і перевірки моделі з наявного набору моделей.

У цю формалізовану і перевантажену теорією середу Джон Тьюки (John Tukey) вкинув, як булижник в скляну вітрину, концепцію т. Н. розвідувального аналізу даних (Exploratory Data Analysis, EDA). Сьогодні важко уявити час, коли до аналізу набору даних можна було приступати без використання ящикової діаграми (box plot) для перевірки на асиметрію і на викиди або без перевірки невязок лінійної моделі на нормальність за допомогою квантільной діаграми. Автором усіх цих ідей був Дж. Тьюки, і сьогодні жоден вступний курс по статистиці не обходиться без них. Однак справа не завжди йшла подібним чином.

Цитата з книги: Graphical Methods for Data Analysis (Графічні методи аналізу даних)

"У будь-якому серйозному додатку на дані слід подивитися декількома способами, а потім побудувати декілька графіків і виконати кілька досліджень. Це дозволить за результатами кожного чергового кроку вибирати наступний крок. Щоб аналіз даних був ефективним, він повинен бути ітеративним". - Джон Чамберс (John Chambers), див. ресурси ).

EDA - це більшою мірою підхід, ніж теорія. Для успішного застосування цього підходу необхідно дотримуватися таких емпіричні правила.

По можливості використовуйте графіки для розгляду цікавлять вас функцій.
Завжди виконуйте аналіз інкрементного чином. Випробуйте одну модель; виходячи з отриманих результатів, налаштуйте наступну модель.
Перевіряйте припущення моделі за допомогою графіків. Звертайте увагу на викиди, якщо вони є.
Використовуйте робастні методи з метою нейтралізації відхилень від припущень розподілу.

Підхід Дж. Тьюки породив хвилю нових графічних методів і робастних оцінок. Крім того, цей підхід ініціював розробку нової програмної середовища, орієнтованої на розвідувальні методи.

Джон Чамберс разом зі своїми колегами з компанії Bell Laboratories створив мову S в якості платформи для статистичного аналізу, особливо тієї його різновиди, яку сповідував Дж. Тьюки. Перша версія мови S, призначена для внутрішнього використання в компанії Bell, була розроблена ще в 1976 р, проте лише в 1988 році цей мова набула свою теперішню форму. До цього часу мова була доступний і користувачам за межами Bell. У кожному своєму аспекті мова S відповідає "нової моделі" аналізу даних.

S - це інтерпретована мова, діючий в середовищі програмування. Синтаксис S багато в чому схожий на синтаксис мови C, але без його складнощів. Наприклад, S бере на себе турботу про управління пам'яттю і про оголошення змінних, тому у користувача немає необхідності описувати і налагоджувати подібні речі. Більш низькі накладні витрати на програмування дозволяють швидко проводити кілька досліджень з одним і тим же набором даних.
З самого початку мова S допускав створення високорівневих графічних артефактів і дозволяв додавати опції до будь-якого відкритого графічного вікна. Ця мова дозволяє з легкістю виділити цікаві місця, запросити їх значення, додати сглажівющіе криві до точкової діаграмі і т.д.
У 1992 р в мові S була додатково реалізована об'єктна орієнтованість. У мові програмування об'єкти здійснюють структурування даних і функцій відповідно до інтуїтивними уявленнями користувача. Людське мислення завжди є об'єктно-орієнтованим, а статистичні умовиводи - особливо. Статистик працює з частотними таблицями, з тимчасовими рядами, з матрицями, з електронними таблицями, що містять дані різних типів, з моделями і т.д. У кожному разі необроблені числа наділяються атрибутами і супроводжуються тими чи іншими очікуваннями. Наприклад, часовий ряд складається з спостережень і відповідних моментів часу. Для кожного типу даних очікуються стандартні статистичні показники і графіки. У разі тимчасових рядів можна сформувати графік часового ряду і коррелограмм; для емпірично підібраною моделі можна графічно зобразити наближення і залишки. Мова S дозволяє створювати об'єкти для всіх цих концепцій; в міру необхідності ви зможете створювати нові класи об'єктів. Об'єкти полегшують перехід від концептуалізації проблеми до її реалізації в програмному коді.

Мова з характером: S, S-Plus і перевірка гіпотез

У своєму первісному вигляді мова S ставився до EDA-методам Дж. Тьюки вельми серйозно - до такої міри, що на мові S було незручно робити що-небудь інше, крім EDA. Це була мова з характером. Наприклад, S мав ряд корисних внутрішніх функцій, однак у нього були відсутні деякі цілком очевидні можливості, наявності яких можна було б очікувати у статистичного програмного забезпечення. Так, була відсутня функція для виконання t-тесту для двох вибірок і не підтримувалося справжнє тестування для гіпотез будь-якого виду. Однак, незважаючи на аргументацію Дж. Тьюки, тестування гіпотез часто буває дуже корисним.

У 1988 р компанія з Сіетла під назвою Statistical Science придбала ліцензію на S і портувала поліпшену версію цієї мови під назвою S-Plus на платформу DOS, а потім і в середу Windows®. Володіючи реальним уявленням про те, що потрібно її клієнтам, компанія Statistical Science додала в мову S-Plus функціональність класичної статистики. Були додані функції для дисперсійного аналізу (ANOVA), t-тест і інші моделі. Відповідно до об'єктної орієнтованістю мови S результат будь-якої підібраною моделі сам є об'єктом мови S. Виклики відповідної функції надають наближення, залишки і p-значення при тестуванні гіпотези. Об'єкт моделі може навіть містити проміжні обчислювальні кроки аналізу, такі як QR-розкладання матриці плану (де Q - ортогональна матриця, а R - верхнетреугольная матриця).

Приблизно в той же самий час, коли був випущений мову S-Plus, Росс Айхека (Ross Ihaka) і Роберт Джентлмен (Robert Gentleman) з Оклендського університету в Новій Зеландії вирішили спробувати свої сили в написанні інтерпретатора. В якості своєї моделі вони вибрали мову S. Проект конкретизировался і отримав підтримку. Вони дали своїм проектом назву R.

R - це реалізація мови S з додатковими моделями, розробленими в мові S-Plus. У деяких випадках моделями в обох мовах займалися одні й ті ж люди. R - це проект з відкритим вихідним кодом, який доступний згідно з ліцензією GNU. На цьому фундаменті R продовжує розвиватися, в значній мірі за допомогою додавання пакетів. R- пакет являє собою колекцію наборів даних, функцій мови R, документації і динамічно завантажуваних елементів на мові C або Fortran. R-пакет може бути встановлений як група, яка буде доступна в рамках сеансу R. R-пакети додають нову функціональність до мови R; за допомогою цих пакетів дослідники можуть з легкістю обмінюватися обчислювальними методами зі своїми колегами. Деякі пакети мають обмежену сферу застосування, інші представляють цілі галузі статистики, а деякі відображають новітні розробки. І дійсно, багато нові розробки в області статистики спочатку з'являються як R-пакети, і тільки потім реалізуються в комерційних програмних продуктах.

У той момент, коли я писала цей текст, на веб-сайті CRAN, з якого здійснюється завантаження R, кількість R-пакетів становила 4701. З них шість пакетів було додано тільки в один цей день. Платформа R має пакет для вирішення будь-якої задачі - принаймні саме таке враження складається.

Що відбувається при використанні R

Прмечаніе: Ця стаття не є навчальним посібником з R. Наступний приклад - це не більше ніж спроба показати, як виглядає сеанс R.

Є виконавчі дистрибутиви R для Windows, для Mac OS X і для декількох варіантів Linux®. Крім того, для тих, кому подобається компілювати самостійно, доступні і вихідні коди.

У середовищі Windows® установник додає пункт R в Меню Start (Пуск). Щоб запустити R в середовищі Linux, відкрийте вікно терміналу і при появі підказки введіть з клавіатури букву R. Ви повинні побачити щось схоже на рис.1 .

Малюнок 1. Робочий простір R

Чотири серйозних аргументу на користь того, щоб випробувати цю платформу з відкритим вихідним кодом для аналізу даних Ви напевно чули про R

Введіть команду в рядку запрошення, і R відреагує відповідним чином.

В реальній ситуації на цьому етапі ви, ймовірно, ввели б дані в об'єкт R з зовнішнього файлу даних. R здатний читати дані в різних форматах; проте в цьому прикладі я використовую набір даних michelson з пакета MASS. Цей пакет супроводжує етапну книгу Венаблса (Venables) і Ріплі (Ripley) під назвою Modern Applied Statistics with S-Plus (Сучасна прикладна статистика з використанням S-Plus) (див. Розділ ресурси ). Набір даних michelson містить результати відомих експериментів Майкельсона-Морлі по вимірюванню швидкості світла.

Команди, показані в лістингу 1 , Завантажують пакет MASS, отримують дані з michelson і дозволяють розглянути їх. на рис.2 показані ці команди з відповідними відповідями від R. Кожен рядок містить R-функцію з її аргументами в квадратних дужках ([]).

Лістинг 1. Старт сеансу R

2 + 2 # R може працювати як калькулятор. R дає відповідь "4" (правильний). library ( "MASS") # Завантажує в пам'ять функції і набори даних з # пакету MASS, який супроводжує книгу Modern Applied Statistics in S data (michelson) # Копіює набір даних michelson в робочий простір. ls () # перераховує вміст робочого простору. У ньому присутні дані # з набору michelson head (michelson) # Виводить на екран кілька перших рядків цього набору даних. # Стовпець Speed (швидкість) містить отримані Майкельсоном і Морлі оцінки # швидкості світла (менш 299000 км / с). # Майкельсон і Морлі виконали п'ять експериментів по 20 прогонів в кожному. # Набір даних містить індикаторні змінні для експерименту і для прогону. help (michelson) # Викликає екран довідки, який описує цей набір даних.

Малюнок 2. Старт сеансу і відповіді R

Тепер подивимося на дані ( лістинг 2 ). Результати показані на рис.3 .

Лістинг 2. ящикового діаграма (box plot) на мові R

# Базова ящикова діаграма (boxplot) with (michelson, boxplot (Speed ~ Expt)) # Я можу додати колір і мітки. Я також можу зберегти результати у вигляді об'єкта. michelson.bp = with (michelson, boxplot (Speed ~ Expt, xlab = "Experiment", las = 1, ylab = "Speed of Light - 299,000 m / s", main = "Michelson-Morley Experiments", col = "slateblue1 ")) # Поточна оцінка швидкості світла в цьому масштабі становить 734,5 # Додавання горизонтальної лінії з метою виділення цього значення. abline (h = 734.5, lwd = 2, col = "purple") # Додавання сучасного значення швидкості світла

Складається враження, що Майкельсон і Морлі систематично завищували оцінку швидкості світла. Крім того, в результатах експериментів спостерігається деяка неоднорідність.

Малюнок 3. Представлення у вигляді ящика діаграми

Якщо мене задовольняють мої дослідження, я можу зберегти всі свої команди у вигляді однієї функції мови R ( лістинг 3 ).

Лістинг 3. Проста функція на мові R

MyExample = function () {library (MASS) data (michelson) michelson.bw = with (michelson, boxplot (Speed ~ Expt, xlab = "Experiment", las = 1, ylab = "Speed of Light - 299,000 m / s" , main = "Michelsen-Morley Experiments", col = "slateblue1")) abline (h = 734.5, lwd = 2, col = "purple")}

Цей простий приклад ілюструє кілька важливих особливостей мови R.

Чи потребує R в потужній апаратних засоби?

Я віконувала цею приклад на нетбуці Acer під управлінням Crunchbang Linux. R НЕ требует потужного комп'ютера для проведення АНАЛІЗУ малого и СЕРЕДНЯ масштабу. Протягом 20 років про R говорили, що це повільний мову, оскільки він є інтерпретується, і що обсяг даних, які він здатний проаналізувати, обмежений пам'яттю комп'ютера. Все це відповідає дійсності, однак для сучасних комп'ютерів це, як правило, некритично, за умови, що програма не є дійсно величезним (тобто не відноситься до категорії Великих даних).

R залишається актуальним і в 21 столітті

Розвідувальний підхід Дж. Тьюки до аналізу даних став нормою для навчального процесу. Він викладається в навчальних закладах і застосовується фахівцями за статистикою. Мова R підтримує цей підхід, і це одне з пояснень того, чому він до сих пір зберігає популярність. Об'єктна орієнтація також допомагає мови R залишатися актуальним, оскільки для аналізу нових джерел даних потрібні нові структури даних. В даний час платформа InfoSphere® Streams підтримує аналіз на мові R для даних, відмінних від тих, на які орієнтувався Джон Чамберс.

Інструментарій R-project Toolkit на платформі InfoSphere Streams

InfoSphere Streams - це передова обчислювальна платформа, яка надає можливість швидко приймати, аналізувати і зіставляти інформацію в додатках, розроблених користувачами, у міру надходження інформації з тисяч джерел в реальному часі. Це рішення здатне обробляти дані з дуже високою пропускною здатністю: до декількох мільйонів подій або повідомлень в секунду. До складу цієї платформи входить інструментарій R-project Toolkit. Дізнайтесь более и завантажте ознайомчу версію .

Мова R і платформа InfoSphere Streams

InfoSphere Streams - це обчислювальна платформа і інтегроване середовище розробки для аналізу даних, які з високою швидкістю надходять з тисяч джерел. Вміст цих потоків даних зазвичай є неструктурованих або структурованим частково. Мета аналізу полягає у виявленні змінюються закономірностей в даних і в прийнятті рішень безпосередньо на основі швидко мінливих подій. Мова програмування для платформи InfoSphere Streams під назвою SPL організовує дані за допомогою парадигми, яка відображає динамічну природу даних, а також необхідність швидкого аналізу і реагування.

Ми далеко пішли від електронних таблиць і звичайних плоских файлів класичного статистичного аналізу, однак мова R здатний адаптуватися. У версії 3.1 додатка на SPL здатні передавати дані в R і таким чином задіяти велику бібліотеку R-пакетів. InfoSphere Streams підтримує аналітику на R за допомогою створення відповідних R-об'єктів для отримання інформації, що міститься в кортежі SPL (базова структура даних в мові SPL). Це дозволяє передавати дані InfoSphere Streams в середу R для подальшого аналізу, а отримані результати повертати назад в SPL.

Для яких випадків R не годиться

Справедливості заради слід зазначити, що деякі речі R робить не дуже добре або взагалі не робить. Крім того, R не в однаковій мірі підходить кожному користувачеві.

R не є сховищем даних. Найлегший спосіб введення дані в R полягає в тому, щоб ввести потрібні дані в будь-якому іншому місці, а потім імпортувати їх в середу R. Свого часу мали місце спроби додати до середовища R інтерфейсну частину у вигляді електронної таблиці, проте вони не завоювали популярності. Відсутність функціональності електронної таблиці не тільки ускладнює введення даних, але і ускладнює візуальне розгляд даних в R (на відміну від SPSS або Excel).
R ускладнює рішення звичайних задач. Наприклад, при проведенні медичних досліджень перший етап обробки даних полягає в обчисленні зведеної статистики по всім змінним і в складанні переліку відсутніх відповідей і пропущених даних. В SPSS цей процес реалізується буквально трьома клацаннями миші, однак R не має вбудованої функції для обчислення цієї цілком очевидною інформації та її подальшого відображення в табличній формі. Потрібний код досить легко написати самому, проте іноді хочеться, щоб такі речі можна було робити клацанням миші.
Процес навчання мови R є нетривіальним. Новачок може відкрити керовану за допомогою меню статистичну платформу і отримати результат за все за кілька хвилин. Не кожен хоче ставати програмістом для того, щоб бути аналітиком, а, можливо, не кожному це і потрібно.
R має відкритий вихідний код. Спільнота R є численним, зрілим і активним; поза всяким сумнівом, R входить в число найбільш успішних проектів з відкритим вихідним кодом. Як я вже говорила, реалізація мови R має вік більше 20 років, а реалізація мови S - ще більше. Це перевірена концепція і випробуваний продукт. Однак, як і для будь-якого іншого продукту з відкритим вихідним кодом, надійність залежить від прозорості. Ми віримо в програмний код, оскільки ми самі здатні перевіряти його і оскільки інші люди здатні перевіряти його і повідомляти про виявлених при цьому помилки. Інша ситуація має місце в корпоративному проекті, який бере на себе обов'язки з тестування та валідації свого програмного продукту. При цьому в разі рідко використовуваних R-пакетів у нас немає достатніх підстав припускати, що ці пакети дійсно забезпечують отримання коректних результатів.

Висновок

Чи необхідно вам вивчати мову R? Цілком можливо, що немає; необхідно - це занадто сильне твердження. Але чи є R цінним інструментом для аналізу даних? Без сумніву. Ця мова спеціально розроблений таким чином, щоб відображати способи мислення і роботи статистиків. R закріплює хороші звички і покращує аналіз. По-моєму, це хороший інструмент для такої роботи.

Ресурси для скачування

Схожі тими

Оригінал статті: Do I need to learn R? .
The New S Language: A Programming Environment for Data Analysis and Graphics (RA Becker, John M. Chambers, AR Wilks; видавництво Chapman & Hall, 1988). Ця основоположна робота відома в колах R і S як The Blue Book ( "Синя книга"). Книга містить повний опис мови S і перелік всіх його вбудованих функцій.
Graphical Methods for Data Analysis (John M. Chambers, William S. Cleveland, Beat Kleiner, Paul A. Tukey; видавництво Duxbury Press, 1983).
Exploratory Data Analysis , (John Tukey) Зверніть увагу, що Джон Тьюки (John Tukey) і Пол Тьюки (Paul Tukey) - це різні люди. У цій книзі викладено концепцію, яка була реалізована в мові S.
Modern Applied Statistics with S-Plus , (WN Venables, BD Ripley; видавництво Springer-Verlag, 1997). Класичне введення в об'єктну орієнтованість мови S-Plus (і мови R). Набори даних і багато функцій, використані в цій книзі, включені в пакет MASS мови R.
R for Dummies (Joris Meys, Andrie de Vries; 2012). Доступне опис мови R для початківців.
R in a Nutshell (Joseph Adler; видавництво O'Reilly, 2009). Фундаментальне введення в R для фахівців, які здійснюють стандартний статистичний аналіз наборів даних помірного обсягу. Чи не охоплює великі дані.
У видавництві Springer публікується серія книг з помаранчевими обкладинками і заголовками типу Time Series Analysis in R и An Introduction to Applied Multivariate Analysis with R . These are a good introduction for the R user with a particular application Кожна з цих книг є гарне введення для користувачів R, які цікавляться певною прикладної областю. На відміну від введень загального характеру, книги цієї серії в більшою мірою орієнтовані на відповідні пакети для певних предметних областей і в меншій мірі на базові аспекти R.
Багато "книги" по R насправді є роботами з прикладної статистики з використанням R. Ймовірно, найскладніший момент у використанні R - розуміння статистичних методів, реалізованих в цій мові. У цій категорії однієї з моїх улюблених є книга Data Analysis and Graphics Using R - An Example-Based Approach (John Maindonald, John Braun; видавництво Cambridge UP, 2010). Вона охоплює безліч корисних статистичних методів і показує, як використовувати ці методи в R. Крім того, до книги додається допоміжний R-пакет з даними і функціями.
The Art of R Programming , (Norman Matloff; видавництво O'Reilly, 2011). Це не книга за статистикою, а скоріше одне з небагатьох навчальних посібників, що розглядають R саме як мова програмування. Вона життєво необхідна вам, якщо ви плануєте писати на R значна кількість програмного коду, а не просто запускати пакети.
Якщо ви може дозволити собі покупку лише однієї книги по R, то книга Data Mining with R , (Luis Torgo) не годиться на цю роль. Однак якщо ви плануєте мати більше однієї книги, то ця книга послужить вам хорошим посібником проміжного рівня. У цій книзі, що складається з трьох різних прикладів з області поглибленого аналізу даних, послідовно викладаються всі етапи дослідження, включно з очищенням даних і облік відсутніх значень.
Введення в InfoSphere Streams Чудова вступна стаття по платформі Streams.
Overview of the R-project toolkit (Огляд інструментарію R-project Toolkit) Опис Streams-інструментарію для інтеграції коду на мові R в додатки на мові SPL.
Знайдіть ресурси, які допоможуть вам розпочати роботу з InfoSphere Streams - високопродуктивної обчислювальної платформою IBM.
Перелік продуктів по платформі InfoSphere Platform для проектів з інтенсивним використанням інформації.
Новітні відеоролики по великим даними для новачків і фахівців.
Спробуйте InfoSphere Streams : Завантажте пробну версію з терміном дії 90 діб або спробуйте його в хмарі.
Багато продуктів IBM SPSS можна випробувати безкоштовно.
- IBM SPSS Decision Management - автоматизація і оптимізація прийняття транзакційних рішень перед розгортанням
- SPSS Modeler - інструмент для поглибленого аналізу даних, що допомагає користувачеві створювати прогнозують моделі швидко і інтуїтивним чином, без програмування
- SPSS Text Analytics for Surveys - застосування потужних технологій обробки природних мов, спеціально спроектованих для дослідження тексту.
- SPSS Visualization Designer - просте створення і спільне використання вражаючою візуалізації для поліпшення обміну аналітичними результатами
Завантажте R і документацію на сайті CRAN .
Знайдіть ресурси, які допоможуть вам розпочати роботу з InfoSphere BigInsights - аналітичною платформою, заснованої на програмному забезпеченні з відкритим кодом Hadoop і розширює його можливості завдяки таким функціям, як Big SQL, аналіз тексту і BigSheets.
завантажте продукт InfoSphere BigInsights Quick Start Edition , Який доступний як нативний інсталяційний пакет або як VMware-образ.
Знайдіть ресурси, які допоможуть вам розпочати роботу з InfoSphere Streams - високопродуктивної обчислювальної платформою, яка надає можливість швидко приймати, аналізувати і зіставляти інформацію в додатках, розроблених користувачами, у міру надходження інформації з тисяч джерел в реальному часі.
завантажте продукт InfoSphere Streams , Який доступний як нативний інсталяційний пакет або як VMware-образ.
Оцініть продукт InfoSphere Streams на платформі IBM SmartCloud Enterprise .

Підпішіть мене на ПОВІДОМЛЕННЯ до коментарів

Ви знаєте, що R - це мова програмування і що він має певне відношення до статистики, але чи підходить він вам?
Чи потребує R в потужній апаратних засоби?
Але чи є R цінним інструментом для аналізу даних?

Духовное слово в твоей жизни. Христианская церковь