Data Scientist Интервью Вопросы и ответы
5 марта 2021 г.
Работодатели, проводящие собеседования с кандидатами на работу в области данных, должны оценить навыки и знания кандидата в области алгоритмов, программирования и статистики. Таким образом, менеджер по найму будет задавать вопросы на собеседовании, которые требуют от соискателей демонстрации того, что они знают определенные термины данных и уравнения. Подготовьтесь к собеседованию на должность специалиста по данным, просмотрев возможные вопросы. В этой статье мы перечислим общие, справочные и подробные вопросы интервью с учеными данных и предоставим примеры ответов.
Основные вопросы
Общие вопросы помогают менеджеру по найму понять вашу личность, биографию и интерес к компании и должности:
Чем ты хочешь заниматься через пять лет?
Почему вы хотите работать в этой компании?
Почему эта работа вас интересует?
Как вы думаете, что вам больше всего понравится в этой работе?
Как вы думаете, что вам больше всего не понравится в этой работе?
Назовите пять прилагательных, которые описывают вас.
Какая ваша самая сильная сторона?
Какие интересы или хобби вам нравятся?
Вы лидер или товарищ по команде?
Что мотивирует тебя?
Как вы работаете в ситуациях высокого давления?
Каким из своих достижений вы гордитесь больше всего?
Перечислите три вещи, которые наиболее важны для вас в вашей работе.
Какую последнюю книгу ты прочитал?
Какой ваш любимый веб-сайт?
Кем из специалистов по данным вы восхищаетесь больше всего?
Какой ваш любимый стартап в области науки о данных?
Почему ты хочешь карьера в науке о данных?
Какова ваша идеальная рабочая среда?
Как зовут генерального директора нашей компании?
Чего вы надеетесь достичь в течение первых 90 дней в компании?
Что вы ищете в работодателе?
Вопросы об опыте и прошлом
Интервьюеры задают следующие типы вопросов, чтобы выяснить, подходите ли вы для этой должности и разделяете ли вы ценности компании:
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Как ваш предыдущий опыт работы подготовил вас к этой работе?
Какие качества делают великого специалиста по данным?
Какие навыки вы бы привнесли в эту работу?
Перечислите три вещи, которые ваш предыдущий начальник хотел бы, чтобы вы улучшили.
Какой самый последний проект, над которым вы работали?
Какие шаги вы обычно выполняете в аналитическом проекте?
Как вы справляетесь с неудачами?
Какими программами и компьютерными программами вы владеете?
Опишите свой стиль аналитики.
Расскажите мне о случае, когда вы не согласились с вашим боссом и как вы с этим справились.
Расскажите мне о случае, когда вы не согласились с коллегой, и как вы с этим справились.
Опишите время, когда вы вышли за рамки требований проекта.
Какие шаги вы предприняли для улучшения своих аналитических навыков?
Расскажите мне о последней ошибке, которую вы допустили в алгоритме, и о том, что вы сделали, чтобы ее исправить.
Расскажите мне о самом большом наборе данных, который вы обработали, и о его использовании.
Углубленные вопросы
Эти вопросы дают интервьюеру более подробное представление о том, как вы анализируете данные, и о ваших навыках принятия решений и решения проблем:
Лучше иметь слишком много ложных срабатываний или ложных отрицаний?
Разберите алгоритм, который вы недавно использовали в проекте.
Какое программное обеспечение и инструменты вы использовали в своем последнем проекте и почему вы выбрали именно их?
Опишите проблему, с которой вы столкнулись во время проекта, и как вы ее преодолели.
Что такое корреляция и ковариация?
Какова цель A/B-тестирования? Опишите, как вы использовали A/B-тестирование в последнее время.
Объясните этапы построения дерева решений.
Приведите пример, когда вы использовали алгоритм дерева решений.
Опишите мне время, когда вы использовали ансамблевые методы обучения.
Как бы вы объяснили высшему руководству, почему набор данных важен?
Как вы думаете, почему глубокое обучение становится популярным?
Как бы вы объяснили кому-то логистическую регрессию?
Можете ли вы привести пример, когда вы недавно использовали логистическую регрессию?
Вы предпочитаете использовать Python или R? Почему?
Какие инструменты визуализации данных вам нравятся больше всего?
Какой метод вы используете для прогнозирования категоричных ответов?
Как выбрать K для K-средних?
Знакомы ли вы с такими экономическими терминами, как оптимизация цен, ценовая эластичность, управление запасами и конкурентная разведка? Если да, пожалуйста, определите их.
Каковы некоторые ограничения методов повторной выборки?
Когда параллелизм помогает вашим алгоритмам, а когда вредит?
Как вы относитесь к выбросам?
Как вы оцениваете логистическую модель?
Как вы относитесь к отсутствующим значениям во время анализа?
Создайте функцию с двумя отсортированными списками, которая генерирует отсортированный список, объединяющий два из них.
Какие проблемы решает регуляризация?
Каковы преимущества и недостатки методов регуляризации?
Как преодолеть мультиколлинеарность?
Как вы интерпретируете доверительные интервалы?
Какой язык вы используете с нечетким слиянием?
Как определить, соответствует ли ваша модель линейной регрессии определенным данным?
Объясните, как бы вы нашли связь между непрерывной переменной и категориальной переменной?
Если вы подбрасываете монету 1000 раз, а решка выпадает 575 раз, является ли монета предвзятой?
Какой алгоритм машинного обучения вам нравится больше всего? Почему?
Больше данных лучше, чем меньше? Объяснять.
Как убедиться, что вы не анализируете то, что дает бессмысленные результаты?
Как предотвратить переоснащение при разработке статистической модели?
Вопросы для интервью с примерами ответов
Прежде чем проходить собеседование на работу специалиста по обработке и анализу данных, потренируйтесь отвечать на эти вопросы интервью с специалистом по данным и сравните свои ответы с примерами ответов:
1. Как часто вы будете обновлять алгоритм?
Специалисты по данным должны регулярно обновлять алгоритмы, чтобы предоставлять и собирать актуальные и точные данные. Менеджеры по найму могут задать этот вопрос, чтобы оценить ваши навыки принятия решений и узнать, обновляете ли вы алгоритмы так часто, как им требуется.
Пример: «Я обновляю алгоритм, когда хочу, чтобы модель развивалась по мере того, как данные проходят через ее инфраструктуру, когда ее источник данных изменяется, когда данные нестационарны, когда результаты алгоритма неточны или когда алгоритм работает не так, как ожидалось».
2. Можете ли вы объяснить разницу между проверочным набором и тестовым набором?
Специалисты по данным используют наборы данных для обучения и обновления моделей и алгоритмов. Вы должны знать, что делает каждый набор, какой из них использовать, чтобы получить нужные вам результаты, и быть в состоянии обеспечить правильную работу алгоритмов.
Пример: «Проверочный набор является частью обучающего набора. Я использую его для выбора параметров и предотвращения переобучения при построении модели. Тестовый набор оценивает производительность обученной модели. Я мог бы использовать тестовый набор для оценки обобщения и прогностической способности. “
3. Опишите регуляризацию и ее важность
Регуляризация — важная концепция машинного обучения, а машинное обучение — важная часть науки о данных. Менеджеры по найму хотят знать, насколько хорошо вы разбираетесь в различных аспектах машинного обучения.
Пример: «Регуляризация добавляет в модель параметр настройки, который предотвращает переоснащение и, по сути, лучше решает проблему. Обычно я добавляю постоянный множитель, такой как L1 или L2, к существующему вектору весов. Цель состоит в том, чтобы уменьшить среднее значение функция потерь или ошибка, оцененная на регуляризованном обучающем наборе».
4. Что такое систематическая ошибка отбора и почему она важна?
Исследователи данных часто сталкиваются с предвзятостью выбора при анализе данных. Когда возникает систематическая ошибка, результаты перестают быть рандомизированными и поэтому не являются ни точными, ни репрезентативными для этой совокупности или набора данных. Менеджеры по найму хотят убедиться, что вы понимаете предвзятость выбора, чтобы вы могли отслеживать ее и предотвращать ее возникновение.
Пример: «Смещение выборки возникает, когда неслучайная выборка населения приводит к введению ошибки в модель. Смещение выбора искажает анализ данных, вызывая неточные результаты. Я использую методы повышения, повторной выборки и взвешивания, чтобы скорректировать смещение выбора, когда это неизбежно».
5. При текстовой аналитике вы предпочитаете Python или R?
Python и R — это языки программирования с открытым исходным кодом, широко используемые в науке о данных. Менеджеры по найму хотят убедиться, что вы понимаете, когда использовать каждый из них.
Пример: «Я предпочитаю Python для текстовой аналитики, потому что это больше язык сценариев общего назначения, чем R. Он работает быстрее, чем R, для всей текстовой аналитики. Он также имеет удобные структуры данных и отличные инструменты анализа данных. R более полезен. для статистики и машинного обучения».
6. В чем разница между машинным обучением и глубоким обучением?
Машинное и глубокое обучение являются важными подмножествами искусственного интеллекта. Оба они связаны с изучением компьютерных алгоритмов. Специалисты по данным должны понимать и уметь использовать и то, и другое.
Пример: «Машинное обучение использует алгоритмы, позволяющие компьютерам учиться без необходимости их программирования. Три типа машинного обучения — контролируемое, неконтролируемое и с подкреплением. Глубокое обучение — это тип машинного обучения, в котором задействованы алгоритмы, на которые влияют искусственные нейронные сети в Машинное обучение принимает решения на основе того, чему оно научилось с помощью алгоритмов, в то время как глубокое обучение накладывает алгоритмы таким образом, что принимает решения самостоятельно».
7. Что такое ресемплинг и чем он полезен?
Исследователи данных используют повторную выборку для повышения точности выборки данных. Менеджеры по найму хотят убедиться, что специалисты по данным правильно используют повторную выборку и предпринимают шаги для сбора точных данных.
Пример: «Повторная выборка включает в себя сбор повторных выборок из ключевой выборки данных для получения более точной оценки параметра. Методы повторной выборки полезны при попытке определить, является ли статистика выборки точной при замене меток точек данных во время тестов значимости и при использовании случайных подмножеств. для проверки моделей».
8. Опишите шаги, которые вы предпримете в аналитическом проекте
Менеджеры по найму могут задать этот вопрос, чтобы понять, как вы решаете проблемы и работаете над проектом. Они ищут не столько правильный ответ, сколько ваши методы решения проблем. Ваши шаги должны быть хорошо продуманы и организованы.
Пример: «Я обычно выполняю шесть основных шагов при работе над аналитическим проектом. Сначала я определяю, в чем проблема и как она влияет на компанию. Затем я собираю и знакомлюсь с данными. Как только я понимаю данные, я обнаруживаю выбросы. , преобразовывать переменные и обрабатывать отсутствующие значения, чтобы подготовить данные для моделирования. Когда все готово, я запускаю модель, интерпретирую и анализирую результат, а затем вношу изменения в подход. Я повторяю этот шаг по мере необходимости, пока не получу желаемые результаты.
После этого я использую новый набор данных для проверки модели. Наконец, я начинаю использовать новую модель и отслеживаю ее результаты, чтобы отслеживать ее эффективность с течением времени».
9. Напишите формулу для определения R-квадрата.
Этот тип вопросов предоставляет интервьюеру доказательство того, что вы знаете свои уравнения, формулы и алгоритмы. Вы должны быть в состоянии перечислить общие формулы по памяти.
Пример: «Формула, которую я использую для вычисления R-квадрата, равна единице минус остаточная сумма квадратов, деленная на общую сумму квадратов».
10. Как бы вы разработали таксономию для определения ключевых клиентских тенденций на основе неструктурированных данных?
Опять же, менеджер по найму хочет знать, как вы решаете проблему, какие шаги вы предпринимаете и с кем общаетесь. Им нужны примеры процессов и методов, которые вы могли бы использовать в своем ответе.
Пример: «Сначала я разговаривал с менеджером или владельцем компании, чтобы определить основную причину, по которой они хотят классифицировать эти данные. Затем я собирал новые образцы данных, улучшал модель и проверял ее точность. Я продолжал общаться с менеджером. или владельца, чтобы убедиться, что модель дает нужные им результаты, и найти способы продолжать улучшать ее с течением времени».