Инженеры из MIT разработали новую систему, которая заменяет человеческую интуицию алгоритмами. «Машина науки о данных» превзошла 615 из 906 человеческих команд в трех недавних соревнованиях по науке о данных.

Анализ больших данных заключается в поиске скрытых закономерностей, которые имеют некоторую предсказательную силу. Но выбор «особенностей» данных для анализа обычно требует некоторой человеческой интуиции. В базе данных, содержащей, скажем, даты начала и окончания различных акций по продажам и еженедельную прибыль, важнейшими данными могут быть не сами даты, а промежутки между ними, или не общая прибыль, а средние значения по этим промежуткам.
Исследователи MIT стремятся убрать человеческий фактор из анализа больших данных с помощью новой системы, которая не только ищет закономерности, но и проектирует набор признаков. Чтобы протестировать первый прототип своей системы, они зарегистрировали ее в трех соревнованиях по науке о данных, в которых она соревновалась с командами людей, чтобы найти предиктивные закономерности в незнакомых наборах данных. Из 906 команд, участвовавших в трех соревнованиях, «машина науки о данных» исследователей опередила 615.
В двух из трех конкурсов предсказания, сделанные Data Science Machine, были на 94 и 96 процентов такими же точными, как и победившие заявки. В третьем показатель был более скромным — 87 процентов. Но там, где команды людей обычно трудились над своими алгоритмами предсказания месяцами, Data Science Machine требовалось где-то от двух до 12 часов, чтобы создать каждую из своих записей.
Исследователи MIT стремятся убрать человеческий фактор из анализа больших данных с помощью новой системы, которая не только ищет закономерности, но и проектирует набор признаков. Чтобы протестировать первый прототип своей системы, они зарегистрировали ее в трех соревнованиях по науке о данных, в которых она соревновалась с командами людей, чтобы найти предиктивные закономерности в незнакомых наборах данных. Из 906 команд, участвовавших в трех соревнованиях, «машина науки о данных» исследователей опередила 615.
В двух из трех конкурсов предсказания, сделанные Data Science Machine, были на 94 и 96 процентов такими же точными, как и победившие заявки. В третьем показатель был более скромным — 87 процентов. Но там, где команды людей обычно трудились над своими алгоритмами предсказания месяцами, Data Science Machine требовалось где-то от двух до 12 часов, чтобы создать каждую из своих записей.
«Мы рассматриваем Data Science Machine как естественное дополнение к человеческому интеллекту», — говорит Макс Кантер, чья магистерская диссертация в области компьютерных наук в Массачусетском технологическом институте является основой Data Science Machine. «Существует так много данных, которые нужно проанализировать. И прямо сейчас они просто лежат там, ничего не делая. Так что, возможно, мы сможем придумать решение, которое, по крайней мере, заставит нас начать, по крайней мере, сдвинуться с места».
Между строк
Кантер и его научный руководитель Калян Веерамачанени, научный сотрудник Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института ( CSAIL ), описывают машину обработки данных в статье, которую Кантер представит на следующей неделе на Международной конференции IEEE по обработке данных и передовой аналитике.
Веерамачанени является одним из руководителей группы Anyscale Learning for All в CSAIL, которая применяет методы машинного обучения к решению практических задач анализа больших данных, таких как определение мощности генерации электроэнергии на участках ветряных электростанций или прогнозирование того, какие студенты рискуют бросить онлайн-курсы.
«Из нашего опыта решения ряда проблем науки о данных для промышленности мы заметили, что один из самых важных шагов называется проектированием признаков», — говорит Веерамачанени. «Первое, что вам нужно сделать, это определить, какие переменные следует извлечь из базы данных или скомпоновать, и для этого вам нужно придумать много идей».
Например, при прогнозировании отсева двумя важнейшими показателями оказались то, за сколько времени до крайнего срока студент начинает работать над набором задач и сколько времени студент проводит на веб-сайте курса по сравнению со своими однокурсниками. Платформа онлайн-обучения MITx Массачусетского технологического института не регистрирует ни одну из этих статистик, но собирает данные, из которых их можно вывести.
Веерамачанени является одним из руководителей группы Anyscale Learning for All в CSAIL, которая применяет методы машинного обучения к решению практических задач анализа больших данных, таких как определение мощности генерации электроэнергии на участках ветряных электростанций или прогнозирование того, какие студенты рискуют бросить онлайн-курсы.
«Из нашего опыта решения ряда проблем науки о данных для промышленности мы заметили, что один из самых важных шагов называется проектированием признаков», — говорит Веерамачанени. «Первое, что вам нужно сделать, это определить, какие переменные следует извлечь из базы данных или скомпоновать, и для этого вам нужно придумать много идей».
Например, при прогнозировании отсева двумя важнейшими показателями оказались то, за сколько времени до крайнего срока студент начинает работать над набором задач и сколько времени студент проводит на веб-сайте курса по сравнению со своими однокурсниками. Платформа онлайн-обучения MITx Массачусетского технологического института не регистрирует ни одну из этих статистик, но собирает данные, из которых их можно вывести.
Избранная композиция
Кантер и Веерамачанени используют несколько приемов для создания признаков-кандидатов для анализа данных. Один из них — использовать структурные связи, присущие дизайну базы данных. Базы данных обычно хранят различные типы данных в разных таблицах, указывая корреляции между ними с помощью числовых идентификаторов. Data Science Machine отслеживает эти корреляции, используя их в качестве подсказки для построения признаков.
Например, в одной таблице могут быть перечислены розничные товары и их стоимость; в другой — товары, включенные в покупки отдельных клиентов. Data Science Machine начнет с импорта стоимости из первой таблицы во вторую. Затем, основываясь на ассоциации нескольких различных товаров во второй таблице с одним и тем же номером покупки, она выполнит набор операций для генерации потенциальных признаков: общая стоимость заказа, средняя стоимость заказа, минимальная стоимость заказа и т. д. По мере того, как числовые идентификаторы множатся в таблицах, Data Science Machine накладывает операции друг на друга, находя минимумы средних значений, средние значения сумм и т. д.
Он также ищет так называемые категориальные данные, которые, по-видимому, ограничены ограниченным диапазоном значений, таких как дни недели или названия брендов. Затем он генерирует дополнительных кандидатов на функции, разделяя существующие функции по категориям.
После того, как он создал массив кандидатов, он уменьшает их число, идентифицируя тех, чьи значения кажутся коррелированными. Затем он начинает тестировать свой сокращенный набор признаков на выборочных данных, рекомбинируя их различными способами, чтобы оптимизировать точность прогнозов, которые они дают.
Например, в одной таблице могут быть перечислены розничные товары и их стоимость; в другой — товары, включенные в покупки отдельных клиентов. Data Science Machine начнет с импорта стоимости из первой таблицы во вторую. Затем, основываясь на ассоциации нескольких различных товаров во второй таблице с одним и тем же номером покупки, она выполнит набор операций для генерации потенциальных признаков: общая стоимость заказа, средняя стоимость заказа, минимальная стоимость заказа и т. д. По мере того, как числовые идентификаторы множатся в таблицах, Data Science Machine накладывает операции друг на друга, находя минимумы средних значений, средние значения сумм и т. д.
Он также ищет так называемые категориальные данные, которые, по-видимому, ограничены ограниченным диапазоном значений, таких как дни недели или названия брендов. Затем он генерирует дополнительных кандидатов на функции, разделяя существующие функции по категориям.
После того, как он создал массив кандидатов, он уменьшает их число, идентифицируя тех, чьи значения кажутся коррелированными. Затем он начинает тестировать свой сокращенный набор признаков на выборочных данных, рекомбинируя их различными способами, чтобы оптимизировать точность прогнозов, которые они дают.
«Data Science Machine — один из тех невероятных проектов, где применение передовых исследований для решения практических задач открывает совершенно новый способ взглянуть на проблему», — говорит Марго Сельцер, профессор компьютерных наук Гарвардского университета, которая не принимала участия в работе. «Я думаю, что то, что они сделали, быстро станет стандартом — очень быстро».
Источник: scitechdaily | Теги: Массачусетский технологический институт, Data Science Machine