4 способа использования Науки о данных в повседневной жизни.
Мы ежедневно используем данные, чтобы делать выводы.
Вот мы приходим в новый коллектив. Вокруг нас сплошь незнакомцы. Что делают 99% людей, попадая в незнакомую компанию? Подсознательно распределяют людей по категориям: симпатичные, не симпатичные, с кем мы хотим подружиться, а от кого будем держаться подальше.
Если рассматривать этот процесс в контексте статистики, то это называется предвзятый анализ, т.к. фактически для построения гипотез и выводов мы используем недостаточное количество данных. Что можно узнать о человеке за несколько дней: «это Маша, ей 25, она окончила университет, носит длинные юбки, курит и она не замужем». При желании и наблюдательности мы можем узнать о ней довольно много: биографию, друзей, привычки, материальный и социальный статус и так далее. Сможем ли мы сказать после сбора всей этой информации «о, теперь я знаю Машу намного лучше»? Вовсе нет. Чаще всего бывает, что наше первое впечатление изменится совсем чуть-чуть. Почему это происходит?
Наш мозг собирает и анализирует огромные объемы нелинейной, отрывочной информации на подсознательном уровне и мы делаем свои выводы зачастую без всякой логики. Результаты этих глубинных процессов можно называть по-разному: интуиция, проницательность, опыт. Но суть остается неизменной: мы не знаем, почему один человек вызывает у нас симпатию, а другой нет.
Этот пример нам нужен для того, чтобы мы более ясно представляли себе вектор развития Data science как науки:
С одной стороны, это получение с помощью различных приемов более целостной картины, благодаря обработке и анализу не только систематизированных, но и фрагментарных данных.
Data science занимается поиском способов сбора, обработки и анализа данных ВСЕГО информационного поля, по любой поставленной задаче.
С другой стороны, машины (в отличие от человека) могут делать это быстро. Очень быстро. В случае с рутинными процессами или сложными вычислениями это бесценное качество.
Теперь мы приведем примеры из повседневной жизни.
Выбор фильмов и сериалов. Организация личного списка рекомендаций.
Все поисковики сейчас оснащены опциями «рейтинг» и «подходит вам на «какое-то количество» %».
Казалось бы, все прекрасно. Но только в том случае, если вы массовый потребитель. Потому что высокий рейтинг очень часто наблюдается у фильмов компании Марвел (или аналогичных). Если Вам нравятся фильмы про супергероев и Вы фанат «капитана Америка», то Вам данный алгоритм подойдет. Но если Вы обладаете альтернативным вкусом, то Ваши шансы найти что-то подходящее стремительно падают. Остаются рекомендации.
Но если у Вас есть представление об основных моделях машинного обучения, Вы можете попробовать решить эту задачу это по-другому. Создайте набор данных, введя все фильмы, которые Вы смотрели вместе с их оценками IMDB, жанром, основными актерами, языком, режиссером и т.д.
Дайте им личную оценку из 10. Используйте этот личный рейтинг в качестве целевой переменной. Выберите подход к валидации, а затем используйте на нем соответствующую технику моделирования. Вероятность того, что где-то в Португалии или Мексике сняли для Вас настоящий шедевр, многократно возрастет. Между прочим, другими способами Вы можете наткнуться на такой фильм только случайно.
Аналогичным образом соберите список всех фильмов, которые Вы хотите посмотреть, и, используя указанную выше модель, попытайтесь получить прогнозируемые рейтинги для каждого из них!
Что дальше? Начните смотреть эти фильмы в порядке убывания и наслаждайтесь!
Создание чат-бота, чтобы отвечать друзьям, когда Вы заняты.
Когда разразилась пандемия, пострадали все: закрылись магазины, рестораны и офисы, сервисные центры, огромное количество предприятий сервиса.
Имея в своем распоряжении ограниченное количество людей, компаниям приходилось искать альтернативы, которые могли бы облегчить их работу. Многие компании стали использовали чат-ботов, чтобы общаться по стандартным поводам (ответы на простые вопросы, рекомендации, навигация – таких вопросов больше, чем кажется).
Но вообще то Вы тоже можете создать чат-бота, который будет отвечать за Вас, когда Вы заняты. Предположим, Вы в офисе, и кто-то пишет Вам, спрашивая, где Вы находитесь. Знакомая ситуация? С появлением смартфонов общительные люди очень часто на самом деле страдают от того, что их все время «дергают» и они не могут сконцентрироваться на текущих задачах. Поставьте себе веселого чат-бота! Он отправит вашим друзьям смайлики и солнышки, пока Вы будете заняты делом.
Исследование рынка перед покупкой. Поиск наилучших вариантов.
Вы думаете о покупке смартфона и гуглите «Лучшие смартфоны до 45 тысяч рублей». Вы открываете первую ссылку, и блог перечисляет для вас 5 вариантов. Вы открываете следующий – и там тоже 5 вариантов, но другие. И так до бесконечности. Блогеры делают обзоры, но Ыы понимаете, что, во-первых, красиво похвалить заказчика обзора это их бизнес, а во-вторых, для Вас имеют значение другие функции. Ну и вообще только вы знаете, что для Вас важно.
Но нужно выбрать лучший (для себя) вариант среди тысяч предложений.
Как поступил бы начинающий специалист по Data science?
- С помощью методов веб-парсинга он бы подготовил список всех видов смартфонов, доступных на рынке, а также последние цены на них и доступность в вашем регионе. Так он получил бы структурированный набор данных.
- Ну а теперь мы применяем фильтры («камера», «батарея», «память») и получаем список «Лучшие смартфоны до 45 тысяч рублей» в порядке убывания.
Если Вы не забыли добавить фильтры «специальные предложения» и «цена», то найдете еще и самое выгодное предложение. Остается только выбрать и сделать заказ.
Инвестиции.
Ваши деньги не умножатся, если Вы сохраните большую часть их на своем сберегательном счете. Наоборот, Вы ежегодно будете немного терять на инфляции.
Но Вам не хочется глубоко погружаться в изучение темы инвестирования. Есть вариант автоматизировать процесс. Брокером Вы не станете, но создать оптимальный инвестиционный портфель – это реальная задача. Это может сделать кто угодно!
Люди делают это обычными методами – качественным анализом, просмотром графиков и т.д. Но Вы хорошо разбираетесь в компьютерах и обладаете аналитическими способностями. Почему бы Вам не попробовать алгоритмическую торговлю? Где Ваш компьютер выполняет большую часть вашей работы, анализируя исторические данные и выбирая подходящее время для вложения денег.
Подбирайте различные акции, диверсифицируйте свой портфель и эффективно используйте свои навыки работы с данными.
Чтобы сделать первые шаги Вы можете заглянуть вот сюда: https://www.analyticsvidhya.com/
Это международное сообщество программистов, которые развивают и постоянно совершенствуют различные инструменты Data science.
Это лишь некоторые из реальных, очень простых и повседневных вещей, которые можно сделать с помощью Data Analytics.