16 распространенных вопросов на собеседовании с Hadoop (и как на них отвечать)
15 сентября 2021 г.
Если вы проходите собеседование на должность в области управления данными и аналитики, от вас могут ожидать ответов на вопросы о Hadoop, платформе для хранения данных. В этой статье мы рассмотрим 16 распространенных вопросов для собеседования с Hadoop и предоставим примеры ответов, которые помогут вам подготовиться к следующему собеседованию.
Распространенные вопросы на собеседовании в Hadoop
В зависимости от уровня рассматриваемой должности, вопросы, которые могут возникнуть в связи с Hadoop, могут различаться по глубине. Просмотрите эти вопросы и примеры ответов, чтобы подготовиться к некоторым из наиболее распространенных вопросов:
Что такое большие данные?
Объясните пять V больших данных
Сколько форматов ввода существует в Hadoop?
Что такое ПРЯЖА?
Кто использует Хадуп?
Каковы основные функции Hadoop?
Можете ли вы привести пример планировщика в Hadoop?
В каких трех режимах может работать Hadoop?
В каких операционных системах работает Hadoop?
Что делает JobTracker?
Расскажите мне о различных методах редуктора
Что делает команда jps?
Как вы проверяете NameNode при использовании команды jps?
В чем разница между левым полусоединением и внутренним соединением?
Как вы развертываете решение для работы с большими данными?
Каковы компоненты HDFS?
1. Что такое большие данные?
Большие данные относятся к набору сложной информации, которую сложно обрабатывать. Способность описывать большие данные в сжатых терминах покажет, что вы понимаете основы этой концепции и что вы можете обрабатывать большие наборы данных в профессиональной среде. Подумайте о том, чтобы описать время, когда вы работали с большими данными на предыдущих должностях.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Пример: «Большие данные — это сочетание больших и сложных наборов данных. Это позволяет компаниям понять свой бизнес, извлекая информацию и ценность из необработанных данных. Эта информация позволяет им принимать обоснованные решения, основанные на данных».
«В своей предыдущей роли разработчика я отвечал за программирование приложений Hadoop и выполнял анализ больших наборов данных, что помогало мне делать выводы».
2. Объясните пять V больших данных
Даже если у вас есть опыт работы в этой области, вы можете получить этот вопрос, чтобы увидеть, можете ли вы описать базовую концепцию. Чтобы напомнить, сделайте пометку для себя, чтобы вы могли сослаться на следующее в своем ответе.
Пример: «Первая буква V означает громкость. С точки зрения больших данных это означает объем информации с высокой скоростью. Компании ежедневно производят большие объемы данных с помощью таких вещей, как социальные сети, мобильные телефоны и кредитные карты. Поскольку объем этих данных настолько велик, нам необходимо использовать распределенные системы для хранения данных в отдельных местах, которые впоследствии объединяются программным обеспечением».
«Скорость — это скорость, с которой растет объем больших данных. Объем электронных писем, видео и фотографий увеличивается с невероятной скоростью каждый день по всему миру. Скорость этого должна быть проанализирована, чтобы обеспечить доступ в режиме реального времени к веб-сайтам, обмен мгновенными сообщениями и тому подобное».
«Разнообразие относится к количеству различных типов данных в наборе. В то время как в прошлом были структурированные данные в виде имен, номеров телефонов и адресов, сегодняшний набор данных в основном неструктурирован. Современные технологии позволяют хранить и использовать эти два набора вместе».
«Верность относится к данным, которые являются неопределенными в наборе. Чем выше объем информации, тем более она может рассматриваться как нестабильная. Когда GPS-трекер отклоняется от курса, сигналы теряются, и водителю необходимо предоставить точные данные. В этом случае предоставляемые данные являются неопределенными до тех пор, пока не будут найдены правильные данные».
«Последний V — это ценность, то есть процесс превращения данных в ценность. Предприятия в значительной степени полагаются на этот V, поскольку он помогает им определить рентабельность конкретных инвестиций. Крайне важно понимать ценность данных, чтобы обеспечить монетизацию полученных данных».
3. Сколько входных форматов есть в Hadoop?
Одним из примеров вопроса на собеседовании для человека с большим опытом работы с Hadoop является количество входных форматов. Ответ прост: их три. Продвиньте свой ответ еще на один шаг, назвав и объяснив их.
Пример: «Одним из распространенных форматов ввода является формат ввода текста по умолчанию. Он используется для чтения строк текстовых файлов. Другим является ввод файла последовательности, который используется для чтения файлов в указанной последовательности. Наконец, у нас есть ввод ключ-значение, который используется для простых текстовых файлов».
4. Что такое ПРЯЖА?
Акронимы повсюду в мире технологий. Чтобы проверить ваши знания, кто-нибудь может спросить вас, что такое YARN. Имейте в виду, что они говорят об этой концепции в сфере Hadoop.
Пример: «В данном случае YARN означает «Еще один переговорщик ресурсов». Он отвечает за управление ресурсами для создания среды выполнения».
5. Кто использует Hadoop?
Вопрос о том, кто использует Hadoop, является хорошим ориентиром для проверки вашего опыта работы с материалом. Это способ для вашего потенциального работодателя убедиться, что вы настроены на реальные приложения Hadoop.
Готовясь к собеседованию, следите за новыми компаниями, которые могут использовать Hadoop, так как это может стать хорошей темой для обсуждения после этого вопроса. Убедитесь, что у вас есть источники под рукой на случай, если ваш интервьюер захочет их увидеть.
Пример: «Hadoop — это фреймворк с открытым исходным кодом, который выполняет распределенную обработку больших данных. Данные обрабатываются, когда клиент отправляет данные в Hadoop, где они затем сохраняются. Многие реальные компании из списка Fortune 500 используют Hadoop».
6. Каковы основные функции Hadoop?
Это вопрос, аналогичный вопросу о том, что такое большие данные. Это хороший вопрос для всех типов интервью Hadoop, поскольку он показывает вашему интервьюеру глубину ваших знаний, связанных с программным обеспечением.
Пример: «Есть несколько функций, которые составляют Hadoop. К наиболее важным из них относится тот факт, что он имеет открытый исходный код (это означает, что его можно модифицировать), отказоустойчивый, надежный и имеет распределенную обработку с высокодоступными данными. Hadoop является масштабируемым, экономичным, простым в использовании и работает на принцип локальности данных. Эти функции делают Hadoop мощным инструментом для обработки больших данных».
7. Можете привести пример планировщика в Hadoop?
Если вы хорошо разбираетесь в архитектуре программы, самое время продемонстрировать ее. При подготовке ответа подумайте о трех типах планировщиков: COSHH, FIFO и справедливом распределении.
Пример: «Одним из примеров является COSHH, который работает с учетом кластера, рабочей нагрузки и неоднородности. FIFO — еще один пример, в котором этот планировщик выстраивает задания в зависимости от того, когда они впервые появились. Наконец, справедливое распределение определяет пул, состоящий из карт, и уменьшает количество слотов на ресурсе».
8. В каких трех режимах может работать Hadoop?
Время ответа на этот вопрос может зависеть от вашего опыта и скорости собеседования с администратором Hadoop. Это хороший вариант для быстрого ответа, независимо от того, сели ли вы или находитесь в середине интервью.
Пример: «Три режима: полностью распределенный, псевдораспределенный и автономный».
9. В каких операционных системах работает Hadoop?
На интервью Hadoop это немного каверзный вопрос. Внимательно послушайте, как они формулируют этот вопрос. Они могут спросить об этом с очень ярко выраженной буквой «с», или они могут увидеть, улавливаете ли вы тонкую букву «с» в системе слов.
Пример: «Напомните им, что хотя Linux является основной системой для развертывания Hadoop, она также может работать в системах на базе Windows».
10. Что делает JobTracker?
Когда возникает этот вопрос, это, конечно же, относится к функции Hadoop и представляется как возможность проверить глубину ваших технических знаний.
Пример: «JobTracker выполняет несколько функций. Он управляет ресурсами, а затем отслеживает, какие из них доступны для данной задачи, что, в свою очередь, работает рука об руку с определением того, какие ресурсы лучше всего подходят для этой работы».
«JobTracker также отслеживает каждую задачу и передает всю работу клиенту и отвечает за идентификацию местоположения данных, связываясь с NameNode. Кроме того, JobTracker отслеживает рабочие нагрузки MapReduce. В этой функции он работает как с подчиненным, так и с локальным режимами».
11. Расскажите мне о различных методах редуктора
Один из вопросов Hadoop для опытных разработчиков касается редуктора. Не забывайте, что ваше объяснение должно быть кратким, целенаправленным и включать примеры, демонстрирующие ваш опыт, но не слишком углубляться.
Пример: «Первый метод — настройка. Он настраивает различные параметры файла. Хорошим примером является размер входных данных. После настройки идет уборка. Этот режим удаляет все временные файлы в конце задачи. Последний режим — это режим уменьшения. Это сердце редуктора, и он запускается один раз для каждой клавиши с соответствующей задачей редуктора».
12. Что делает команда jps?
Как разработчик, вы, вероятно, столкнетесь с вопросами, сложность которых будет увеличиваться или которые требуют более конкретных знаний. Приготовьтесь к тому, что вас спросят о команде jps, возможно, ближе к концу интервью.
Пример: «Команда jps работает со всеми демонами Hadoop. Его функция — проверять демонов, чтобы узнать, находятся ли они в рабочем состоянии».
13. Как вы проверяете NameNode при использовании команды jps?
В свою очередь, если вас спросили о команде jps, вы, вероятно, также столкнетесь с подобным вопросом. Использовать ЗВЕЗДОЧНЫЙ метод при ответе на этот вопрос. Приведите им пример и то, как NameNode влияет на работу и результирующее приложение.
Пример: «Статус, который вам нужно запомнить, — это /etc/init.d/hadoop-0.20-namenode. NameNode помогает упростить архитектуру системы и является арбитром и хранилищем всех метаданных HDFS. Поэтому проверка важна».
14. В чем разница между левым полусоединением и внутренним соединением?
В зависимости от типа должности, на которую вы претендуете, вы можете столкнуться с подобными вопросами разработчиков. Если вас спросят, в чем разница между левым полусоединением и внутренним соединением, отвечайте кратко и точно.
Пример: «Левое полусоединение работает только с кортежами с левой стороны. С другой стороны, внутреннее соединение работает с кортежами по обе стороны таблицы команд. Текущая ситуация определяет, какой из них работает в какое время».
«Затем они могут попросить вас описать конкретный сценарий, в котором каждый из них будет работать сам по себе, или есть ли способ, чтобы оба работали вместе».
15. Как вы развертываете решение для работы с большими данными?
Интервьюеры могут спрятать этот вопрос во время интервью, чтобы держать вас в напряжении. Объясняя три основных этапа развертывания решения для больших данных, приведите примеры каждого из них. Это дает им понять, что вы можете легко объяснить сложную концепцию. Применение метода STAR также полезно в этом случае.
Пример: «Прием данных означает сбор данных из различных источников. Некоторые из источников, которые вы можете использовать для сбора данных, включают CRM, например Salesforce. Вы также можете найти данные в корпоративном ресурсе, таком как SAP. Другой вариант — проверка файлов журналов, каналов социальных сетей или документов».
«После того, как данные собраны, следующим шагом в развертывании является их сохранение. Хранение данных происходит либо в HDFS, либо в базе данных NoSQL HBase. Выбор хранилища зависит от того, что вы хотите делать с данными. Если это для последовательного доступа, используйте HDFS. С другой стороны, хранилище данных HBase подходит для произвольного чтения и записи».
«Последний шаг развертывания — обработка данных после их сохранения. Как только он достигает этой стадии, он обрабатывается с помощью таких фреймворков, как Spark или MapReduce».
16. Каковы компоненты HDFS?
Объясните, что HDFS состоит из двух компонентов, а затем подробно расскажите о контрольной точке и резервном копировании.
Пример: «Двумя основными компонентами HDFS являются NameNode и DataNode/Slave node. NameNode — это основной режим обработки метаданных. После обработки метаданные разбиваются на блоки в HDFS».
«Узел DataNode/Slave действует как подчиненный узел для хранения данных. Затем он обрабатывается и развертывается, когда NameNode запрашивает его. Узел контрольной точки работает на отдельном хосте от NameNode. Узел резервного копирования работает специально как NameNode только для чтения и содержит данные о файлах, за исключением местоположений блоков».