Часто задаваемые вопросы: какие существуют типы деревьев решений в машинном обучении?
12 августа 2021 г.
Многие профессии и предприятия могут извлечь выгоду из понимания того, как использовать деревья решений в машинном обучении. Дерево решений может имитировать один из основных мыслительных процессов человека, используя при этом математические способности искусственного интеллекта. Чтобы использовать деревья решений, важно сначала понять их назначение и различные типы. В этой статье мы отвечаем на часто задаваемые вопросы о деревьях решений в машинном обучении, например, что они собой представляют, как они работают, их плюсы и минусы и типы деревьев решений в машинном обучении.
Какова терминология деревьев решений в машинном обучении?
Чтобы понять, что такое деревья решений в машинном обучении, важно сначала понять некоторую терминологию, связанную с искусственным интеллектом (ИИ). Вот некоторая полезная терминология, которая поможет вам понять деревья решений в машинном обучении:
Машинное обучение: Машинное обучение относится к типу искусственного интеллекта, в котором ИИ может учиться сам. Вместо того, чтобы запрограммировать, как именно выполнять конкретную задачу, машинное обучение позволяет ИИ самостоятельно находить наилучшие способы выполнения задачи.
Контролируемое обучение. Контролируемое обучение — это тип машинного обучения, при котором человек предоставляет ИИ помеченные данные, то есть данные с известными правилами или отношениями между точками данных. Деревья решений всегда включают в себя этот конкретный тип машинного обучения.
Выход: Выход относится к переменным или точкам данных, полученным по отношению к другим точкам данных. Например, в основном уравнении y = x + 2 «y» — это результат.
Регрессия: Регрессия — это тип контролируемого обучения, обычно используемый для деревьев решений. Алгоритм регрессии направлен на выявление того, влияют ли и каким образом различные точки данных на значения других точек данных.
Классификация. Классификация — это еще один тип контролируемого обучения, обычно используемый для деревьев решений. Когда профессионалы используют классификацию, их цель состоит в том, чтобы выяснить метки или правила данных.
Непараметрический: непараметрический относится к моделям данных, основанным исключительно на наборах данных, а не на существующей модели или правилах между точками данных. Большинство данных компании являются непараметрическими, поскольку цель состоит в том, чтобы найти отношения между данными, которые дают ценную информацию для бизнеса.
Категориальные переменные. Категориальные переменные имеют значения, в которых вместо меток используются числа. Например, при оценке уровней образования вы можете использовать единицу для представления аттестата об окончании средней школы или GED, две для обозначения дипломов колледжа и три для обозначения степени магистра или доктора.
Непрерывные переменные. Непрерывные переменные — это количественные значения, которые теоретически можно считать вечно. Например, время — это непрерывная переменная, потому что вы можете продолжать считать время вечно и никогда не достичь последней точки данных.
Что такое деревья решений в машинном обучении?
Деревья решений в машинном обучении — это метод представления сложных алгоритмов в более понятном формате. С помощью дерева решений вы можете создать модель, которая проецирует значение ваших выходных данных на основе того, что ИИ узнал о вашем существующем наборе данных. Профессионалы или ИИ могут использовать деревья решений как для регрессии, так и для классификации. Ветви дерева решений представляют возможные пути получения данных, а каждый узел в ветви символизирует конкретный тест на этом пути.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Например, предположим, что вы решаете, какую рабочую задачу выполнять следующей. Некоторые задачи могут потребовать от вас посещения коллег. Другие задачи могут потребовать от вас выезда за пределы площадки. Если бы вы это сделали, по пути были бы другие решения, например, какой маршрут выбрать и где припарковаться, когда вы приедете. Ряд последующих решений, которые вы принимаете, может зависеть от таких факторов, как предпочитаете ли вы ездить по местным улицам или шоссе и какие маршруты вам наиболее знакомы. Все эти варианты будут ветвями дерева решений, а каждый фактор, влияющий на решение, будет узлом.
Как работают деревья решений в машинном обучении?
Деревья решений помогают ИИ имитировать мыслительный процесс человека. Большинство людей делают выбор в зависимости как от своего предыдущего выбора, так и от факторов, влияющих на каждый отдельный вариант или шаг. Дерево решений может имитировать этот тип мыслительного процесса, расширяя его, поскольку ИИ обладает гораздо большими вычислительными и математическими способностями.
Например, бизнес может использовать дерево решений для оценки поведения клиентов на основе подгрупп, например, по полу или возрасту, в рамках всей своей клиентской базы. Каждое отделение может представлять отдельный тип клиентов и все их возможные решения, а также факторы, влияющие на эти решения. Это может привести к тому, что бизнес обнаружит, что определенные группы покупателей, например подростки, имеют иные покупательские привычки, чем другие подгруппы.
Какие существуют типы деревьев решений в машинном обучении?
В машинном обучении есть два основных типа деревьев решений:
Дерево решений категориальных переменных
В деревьях решений категориальных переменных используются категориальные целевые переменные, разделенные на ряд категорий. Например, дерево решений категориальной переменной может присвоить да значение один и нет значение два. Затем он определит ряд ветвей и узлов, которые будут представлять выбор и факторы, которые могут последовать из решения «да» или «нет».
Дерево решений с непрерывными переменными
Деревья решений с непрерывными переменными используют непрерывные переменные для прогнозирования вывода данных. Например, ИИ может прогнозировать цену дома на основе таких факторов, как текущая цена, прошлые цены и средняя цена домов в том же регионе. Цена дома является непрерывной переменной, потому что вы можете постоянно пересчитывать ее на основе новых доступных данных или тенденций.
Каковы преимущества деревьев решений в машинном обучении?
Вот несколько преимуществ использования деревьев решений в машинном обучении:
Простой для понимания
Деревья решений в машинном обучении относительно просты для понимания людьми. Даже для тех, кто не работает с ИИ, дерево решений обычно просто для понимания и анализа. Вероятно, это связано с тем, что деревья решений представляют собой более простой алгоритм машинного обучения, а также обеспечивают визуальное представление их методологии и результатов. Кроме того, в отличие от многих алгоритмов ИИ, деревья решений имитируют фундаментальный тип человеческого мыслительного процесса.
Легко сделать
Дерево решений довольно легко создать, по крайней мере, по сравнению с другими алгоритмами машинного обучения. С деревом решений люди могут тратить меньше времени на предварительную обработку данных, чем некоторые другие методы или алгоритмы. Предварительная обработка данных относится к этапу процесса сбора данных, на котором люди собирают и переводят необработанные данные в метод, понятный ИИ.
Снижение потребности в очистке данных
Деревья решений обычно требуют меньше очистки данных, чем некоторые другие типы алгоритмов машинного обучения. Очистка данных — это практика исправления или удаления данных, которые могли быть неправильно отформатированы или повреждены в процессе передачи данных. Отклоняющиеся, отсутствующие или неверные точки данных, как правило, оказывают меньшее влияние при создании дерева решений.
Каковы недостатки деревьев решений в машинном обучении?
Вот некоторые из потенциальных недостатков использования деревьев решений в машинном обучении:
Возможность быть нестабильным
Деревья решений иногда могут радикально измениться из-за незначительных изменений в их наборах данных. Это может означать, что пользователи получают ненормальные результаты из-за измененной структуры дерева данных. По этой причине методология дерева решений считается нестабильной.
Не так эффективен для больших наборов данных
Дерево решений может быть менее эффективным для точного прогнозирования выходных данных для больших наборов данных. Чтобы поместить все свои данные в одно дерево, дерево решений может в конечном итоге создать слишком много узлов или ветвей. Это может снизить его точность при поиске выходных данных для новых точек данных.
Менее точный для непрерывных переменных
Деревья решений могут быть не лучшей моделью для прогнозирования непрерывных переменных. Если у вас много точек данных с непрерывными переменными, ИИ может уменьшить эти непрерывные переменные до более управляемого числа. Например, если у вас есть точки данных в диапазоне от нуля до 999 999, ИИ может выбрать только несколько значений, которые будут служить средними значениями между несколькими точками данных в этом диапазоне. Хотя этот процесс помогает ИИ работать более эффективно, он может привести к менее точным данным.