16 распространенных вопросов на собеседовании с Hadoop (и как на них отвечать)

15 сентября 2021 г.

Если вы проходите собеседование на должность в области управления данными и аналитики, от вас могут ожидать ответов на вопросы о Hadoop, платформе для хранения данных. В этой статье мы рассмотрим 16 распространенных вопросов для собеседования с Hadoop и предоставим примеры ответов, которые помогут вам подготовиться к следующему собеседованию.

Распространенные вопросы на собеседовании в Hadoop

В зависимости от уровня рассматриваемой должности, вопросы, которые могут возникнуть в связи с Hadoop, могут различаться по глубине. Просмотрите эти вопросы и примеры ответов, чтобы подготовиться к некоторым из наиболее распространенных вопросов:

  1. Что такое большие данные?

  2. Объясните пять V больших данных

  3. Сколько форматов ввода существует в Hadoop?

  4. Что такое ПРЯЖА?

  5. Кто использует Хадуп?

  6. Каковы основные функции Hadoop?

  7. Можете ли вы привести пример планировщика в Hadoop?

  8. В каких трех режимах может работать Hadoop?

  9. В каких операционных системах работает Hadoop?

  10. Что делает JobTracker?

  11. Расскажите мне о различных методах редуктора

  12. Что делает команда jps?

  13. Как вы проверяете NameNode при использовании команды jps?

  14. В чем разница между левым полусоединением и внутренним соединением?

  15. Как вы развертываете решение для работы с большими данными?

  16. Каковы компоненты HDFS?

1. Что такое большие данные?

Большие данные относятся к набору сложной информации, которую сложно обрабатывать. Способность описывать большие данные в сжатых терминах покажет, что вы понимаете основы этой концепции и что вы можете обрабатывать большие наборы данных в профессиональной среде. Подумайте о том, чтобы описать время, когда вы работали с большими данными на предыдущих должностях.

Пример: «Большие данные — это сочетание больших и сложных наборов данных. Это позволяет компаниям понять свой бизнес, извлекая информацию и ценность из необработанных данных. Эта информация позволяет им принимать обоснованные решения, основанные на данных».

«В своей предыдущей роли разработчика я отвечал за программирование приложений Hadoop и выполнял анализ больших наборов данных, что помогало мне делать выводы».

2. Объясните пять V больших данных

Даже если у вас есть опыт работы в этой области, вы можете получить этот вопрос, чтобы увидеть, можете ли вы описать базовую концепцию. Чтобы напомнить, сделайте пометку для себя, чтобы вы могли сослаться на следующее в своем ответе.

Пример: «Первая буква V означает громкость. С точки зрения больших данных это означает объем информации с высокой скоростью. Компании ежедневно производят большие объемы данных с помощью таких вещей, как социальные сети, мобильные телефоны и кредитные карты. Поскольку объем этих данных настолько велик, нам необходимо использовать распределенные системы для хранения данных в отдельных местах, которые впоследствии объединяются программным обеспечением».

«Скорость — это скорость, с которой растет объем больших данных. Объем электронных писем, видео и фотографий увеличивается с невероятной скоростью каждый день по всему миру. Скорость этого должна быть проанализирована, чтобы обеспечить доступ в режиме реального времени к веб-сайтам, обмен мгновенными сообщениями и тому подобное».

«Разнообразие относится к количеству различных типов данных в наборе. В то время как в прошлом были структурированные данные в виде имен, номеров телефонов и адресов, сегодняшний набор данных в основном неструктурирован. Современные технологии позволяют хранить и использовать эти два набора вместе».

«Верность относится к данным, которые являются неопределенными в наборе. Чем выше объем информации, тем более она может рассматриваться как нестабильная. Когда GPS-трекер отклоняется от курса, сигналы теряются, и водителю необходимо предоставить точные данные. В этом случае предоставляемые данные являются неопределенными до тех пор, пока не будут найдены правильные данные».

«Последний V — это ценность, то есть процесс превращения данных в ценность. Предприятия в значительной степени полагаются на этот V, поскольку он помогает им определить рентабельность конкретных инвестиций. Крайне важно понимать ценность данных, чтобы обеспечить монетизацию полученных данных».

3. Сколько входных форматов есть в Hadoop?

Одним из примеров вопроса на собеседовании для человека с большим опытом работы с Hadoop является количество входных форматов. Ответ прост: их три. Продвиньте свой ответ еще на один шаг, назвав и объяснив их.

Пример: «Одним из распространенных форматов ввода является формат ввода текста по умолчанию. Он используется для чтения строк текстовых файлов. Другим является ввод файла последовательности, который используется для чтения файлов в указанной последовательности. Наконец, у нас есть ввод ключ-значение, который используется для простых текстовых файлов».

4. Что такое ПРЯЖА?

Акронимы повсюду в мире технологий. Чтобы проверить ваши знания, кто-нибудь может спросить вас, что такое YARN. Имейте в виду, что они говорят об этой концепции в сфере Hadoop.

Пример: «В данном случае YARN означает «Еще один переговорщик ресурсов». Он отвечает за управление ресурсами для создания среды выполнения».

5. Кто использует Hadoop?

Вопрос о том, кто использует Hadoop, является хорошим ориентиром для проверки вашего опыта работы с материалом. Это способ для вашего потенциального работодателя убедиться, что вы настроены на реальные приложения Hadoop.

Готовясь к собеседованию, следите за новыми компаниями, которые могут использовать Hadoop, так как это может стать хорошей темой для обсуждения после этого вопроса. Убедитесь, что у вас есть источники под рукой на случай, если ваш интервьюер захочет их увидеть.

Пример: «Hadoop — это фреймворк с открытым исходным кодом, который выполняет распределенную обработку больших данных. Данные обрабатываются, когда клиент отправляет данные в Hadoop, где они затем сохраняются. Многие реальные компании из списка Fortune 500 используют Hadoop».

6. Каковы основные функции Hadoop?

Это вопрос, аналогичный вопросу о том, что такое большие данные. Это хороший вопрос для всех типов интервью Hadoop, поскольку он показывает вашему интервьюеру глубину ваших знаний, связанных с программным обеспечением.

Пример: «Есть несколько функций, которые составляют Hadoop. К наиболее важным из них относится тот факт, что он имеет открытый исходный код (это означает, что его можно модифицировать), отказоустойчивый, надежный и имеет распределенную обработку с высокодоступными данными. Hadoop является масштабируемым, экономичным, простым в использовании и работает на принцип локальности данных. Эти функции делают Hadoop мощным инструментом для обработки больших данных».

7. Можете привести пример планировщика в Hadoop?

Если вы хорошо разбираетесь в архитектуре программы, самое время продемонстрировать ее. При подготовке ответа подумайте о трех типах планировщиков: COSHH, FIFO и справедливом распределении.

Пример: «Одним из примеров является COSHH, который работает с учетом кластера, рабочей нагрузки и неоднородности. FIFO — еще один пример, в котором этот планировщик выстраивает задания в зависимости от того, когда они впервые появились. Наконец, справедливое распределение определяет пул, состоящий из карт, и уменьшает количество слотов на ресурсе».

8. В каких трех режимах может работать Hadoop?

Время ответа на этот вопрос может зависеть от вашего опыта и скорости собеседования с администратором Hadoop. Это хороший вариант для быстрого ответа, независимо от того, сели ли вы или находитесь в середине интервью.

Пример: «Три режима: полностью распределенный, псевдораспределенный и автономный».

9. В каких операционных системах работает Hadoop?

На интервью Hadoop это немного каверзный вопрос. Внимательно послушайте, как они формулируют этот вопрос. Они могут спросить об этом с очень ярко выраженной буквой «с», или они могут увидеть, улавливаете ли вы тонкую букву «с» в системе слов.

Пример: «Напомните им, что хотя Linux является основной системой для развертывания Hadoop, она также может работать в системах на базе Windows».

10. Что делает JobTracker?

Когда возникает этот вопрос, это, конечно же, относится к функции Hadoop и представляется как возможность проверить глубину ваших технических знаний.

Пример: «JobTracker выполняет несколько функций. Он управляет ресурсами, а затем отслеживает, какие из них доступны для данной задачи, что, в свою очередь, работает рука об руку с определением того, какие ресурсы лучше всего подходят для этой работы».

«JobTracker также отслеживает каждую задачу и передает всю работу клиенту и отвечает за идентификацию местоположения данных, связываясь с NameNode. Кроме того, JobTracker отслеживает рабочие нагрузки MapReduce. В этой функции он работает как с подчиненным, так и с локальным режимами».

11. Расскажите мне о различных методах редуктора

Один из вопросов Hadoop для опытных разработчиков касается редуктора. Не забывайте, что ваше объяснение должно быть кратким, целенаправленным и включать примеры, демонстрирующие ваш опыт, но не слишком углубляться.

Пример: «Первый метод — настройка. Он настраивает различные параметры файла. Хорошим примером является размер входных данных. После настройки идет уборка. Этот режим удаляет все временные файлы в конце задачи. Последний режим — это режим уменьшения. Это сердце редуктора, и он запускается один раз для каждой клавиши с соответствующей задачей редуктора».

12. Что делает команда jps?

Как разработчик, вы, вероятно, столкнетесь с вопросами, сложность которых будет увеличиваться или которые требуют более конкретных знаний. Приготовьтесь к тому, что вас спросят о команде jps, возможно, ближе к концу интервью.

Пример: «Команда jps работает со всеми демонами Hadoop. Его функция — проверять демонов, чтобы узнать, находятся ли они в рабочем состоянии».

13. Как вы проверяете NameNode при использовании команды jps?

В свою очередь, если вас спросили о команде jps, вы, вероятно, также столкнетесь с подобным вопросом. Использовать ЗВЕЗДОЧНЫЙ метод при ответе на этот вопрос. Приведите им пример и то, как NameNode влияет на работу и результирующее приложение.

Пример: «Статус, который вам нужно запомнить, — это /etc/init.d/hadoop-0.20-namenode. NameNode помогает упростить архитектуру системы и является арбитром и хранилищем всех метаданных HDFS. Поэтому проверка важна».

14. В чем разница между левым полусоединением и внутренним соединением?

В зависимости от типа должности, на которую вы претендуете, вы можете столкнуться с подобными вопросами разработчиков. Если вас спросят, в чем разница между левым полусоединением и внутренним соединением, отвечайте кратко и точно.

Пример: «Левое полусоединение работает только с кортежами с левой стороны. С другой стороны, внутреннее соединение работает с кортежами по обе стороны таблицы команд. Текущая ситуация определяет, какой из них работает в какое время».

«Затем они могут попросить вас описать конкретный сценарий, в котором каждый из них будет работать сам по себе, или есть ли способ, чтобы оба работали вместе».

15. Как вы развертываете решение для работы с большими данными?

Интервьюеры могут спрятать этот вопрос во время интервью, чтобы держать вас в напряжении. Объясняя три основных этапа развертывания решения для больших данных, приведите примеры каждого из них. Это дает им понять, что вы можете легко объяснить сложную концепцию. Применение метода STAR также полезно в этом случае.

Пример: «Прием данных означает сбор данных из различных источников. Некоторые из источников, которые вы можете использовать для сбора данных, включают CRM, например Salesforce. Вы также можете найти данные в корпоративном ресурсе, таком как SAP. Другой вариант — проверка файлов журналов, каналов социальных сетей или документов».

«После того, как данные собраны, следующим шагом в развертывании является их сохранение. Хранение данных происходит либо в HDFS, либо в базе данных NoSQL HBase. Выбор хранилища зависит от того, что вы хотите делать с данными. Если это для последовательного доступа, используйте HDFS. С другой стороны, хранилище данных HBase подходит для произвольного чтения и записи».

«Последний шаг развертывания — обработка данных после их сохранения. Как только он достигает этой стадии, он обрабатывается с помощью таких фреймворков, как Spark или MapReduce».

16. Каковы компоненты HDFS?

Объясните, что HDFS состоит из двух компонентов, а затем подробно расскажите о контрольной точке и резервном копировании.

Пример: «Двумя основными компонентами HDFS являются NameNode и DataNode/Slave node. NameNode — это основной режим обработки метаданных. После обработки метаданные разбиваются на блоки в HDFS».

«Узел DataNode/Slave действует как подчиненный узел для хранения данных. Затем он обрабатывается и развертывается, когда NameNode запрашивает его. Узел контрольной точки работает на отдельном хосте от NameNode. Узел резервного копирования работает специально как NameNode только для чтения и содержит данные о файлах, за исключением местоположений блоков».

Похожие записи

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *