Каковы соответствующие навыки в арсенале Специалиста по обработке и анализу данных? С новыми технологиями, прибывающими в каждый день, как каждый привередливо выбирает основы?
Несколько идей, релевантных этому обсуждению:
Мысли?
Цитата из вступления к докторской диссертации Хэдли :
Во-первых, вы получаете данные в форме, которая вы можете работать с ... Во-вторых, вы нанесите на график данные, чтобы понять, что происходит ... В-третьих, вы повторяете между графикой и моделями, чтобы построить краткое количественное резюме данные ... Наконец, вы снова посмотрите на что ты сделал, и размышляй в каких инструментах вам нужно работать лучше будущее
Шаг 1 почти наверняка будет связан с изменением данных и может включать доступ к базе данных или веб-скрейпинг. Также полезно знать людей, которые создают данные. (Я заносил это в раздел «нетворкинг».)
Шаг 2 означает навыки визуализации / построения графиков.
Шаг 3 означает статистику или навыки моделирования. Поскольку это слишком широкая категория, способность делегировать полномочия моделисту также является полезным навыком.
Последний шаг в основном касается мягких навыков, таких как самоанализ и управленческие навыки.
В вопросе также упоминались навыки программирования, и я согласен, что они очень пригодятся. Software Carpentry имеет хороший список всех базовых навыков работы с программным обеспечением, которые вы должны иметь.
Просто чтобы подбросить некоторые идеи для других:
На каком-то смехотворно высоком уровне абстракции вся работа с данными включает следующие шаги:
Как минимум, специалист по анализу данных должен обладать как минимум некоторыми навыками в каждой из этих областей. Но в зависимости от специальности можно проводить намного больше времени в ограниченном диапазоне.
JD великолепны, и для более подробного ознакомления с этими идеями прочтите превосходный пост Майкла Дрисколла Три сексуальных навыка компьютерных фанатов :
JD ударил его по голове: рассказывание историй. Хотя он забыл ДРУГОЙ важную историю: историю о том, почему вы использовали <вставьте сюда причудливую технику>. Умение ответить на этот вопрос - несомненно, самый важный навык, который вы можете развить.
Остальное - просто молотки. Не поймите меня неправильно, такие вещи, как R, великолепны. R - это целый набор молотков, но важно знать, как использовать молотки и еще много чего, чтобы сделать что-то полезное.
Я думаю, что важно владеть парой комериальных баз данных. В финансовом мире, с которым я консультируюсь, я часто вижу DB / 2 и Oracle на большом железе и SQL Server на распределенных серверах. В основном это означает возможность читать и писать код SQL. Вы должны иметь возможность получать данные из хранилища в свой аналитический инструмент.
С точки зрения аналитических инструментов, я считаю, что R приобретает все большее значение. Я также думаю, что очень полезно знать, как использовать хотя бы еще один статистический пакет. Это может быть SAS или SPSS ... это действительно зависит от компании или клиента, на которых вы работаете, и их ожиданий.
Наконец, вы можете прекрасно разбираться во всех этих пакетах и при этом не быть очень ценным. Чрезвычайно важно иметь достаточный опыт в конкретной области и уметь сообщать соответствующим пользователям и менеджерам, какие проблемы связаны с вашим анализом, а также с вашими выводами.
Великая наука, почти в любой дисциплине, редко делается отдельными людьми в наши дни.
Есть несколько тем по информатике, которые полезны для специалистов по данным, многие из них уже упоминались: распределенные вычисления, операционные системы и базы данных.
Анализ алгоритмов , то есть понимание требований к пространству и времени вычислений, является единственной наиболее важной темой информатики для специалистов по данным. Это полезно для реализации эффективного кода, от методов статистического обучения до сбора данных; и определение ваших вычислительных потребностей, таких как объем оперативной памяти или количество узлов Hadoop.
Терпение - как для получения результатов разумным образом, так и для того, чтобы иметь возможность вернуться и изменить их на то, что «действительно» требовалось.