Что такое матрица путаницы? (с расчетами и примером)
12 августа 2021 г.
В науке о данных аналитики данных и инженеры выполняют различные оценки при работе с проблемами машинного обучения. Некоторые проблемы, которые часто решают аналитики машинного обучения, связаны с классификацией данных. Матрица путаницы является ценным инструментом для измерения факторов, влияющих на точность и достоверность модели классификации или классификатора. В этой статье мы рассмотрим, что такое матрица путаницы, почему она важна для анализа данных и машинного обучения и как можно рассчитать матрицу путаницы для задачи классификации двух классов, с примером, который поможет вам.
Что такое матрица путаницы?
В науке о данных матрица путаницы представляет собой диаграмму или таблицу, в которой обобщается производительность модели классификации или алгоритма для процессов машинного обучения. Матрицы путаницы помогают в прогнозном анализе и могут быть эффективными инструментами для оценки того, какие функции система машинного обучения выполняет правильно, а какие — неправильно.
При создании матрицы путаницы вы включаете как прогнозные, так и фактические значения, которые вы тестируете в системе, причем каждая строка соответствует каждому прогнозируемому классу, а каждый столбец соответствует фактическому классу. В зависимости от количества выходных данных, которые вы получаете для каждого входа, матрица путаницы может вычислять проблемы классификации либо с несколькими классами, либо с двумя классами.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Важность матрицы путаницы в науке о данных
Исследователи данных, разрабатывающие системы машинного обучения, полагаются на матрицы путаницы для решения задач классификации, содержащих два или более классов. Матрица организует входные и выходные данные таким образом, что позволяет аналитикам и программистам визуализировать точность, полноту и точность алгоритмов машинного обучения, которые они применяют к проектам систем. В двухклассовой или двоичной задаче классификации матрица путаницы имеет решающее значение для определения двух результатов, положительных или отрицательных, где эти переменные представляют числовые значения в системе машинного обучения. При решении задач бинарной классификации вы можете использовать матрицы путаницы, чтобы найти:
Коэффициент точности: это процент случаев, когда классификатор оказывается правильным.
Коэффициент ошибочной классификации: это процент случаев, когда классификатор неверен.
Истинный положительный показатель: эта цифра представляет собой процент случаев, когда классификатор правильно предсказывает желаемые результаты.
Истинный отрицательный показатель: это относится к тому, как часто классификатор правильно предсказывает нежелательные результаты.
Частота ложноположительных результатов: это ошибка типа I, показывающая, насколько часто классификатор неверен при прогнозировании желаемых результатов.
Ложноотрицательный показатель: это ошибка типа II, представляющая процент случаев, когда классификатор неправильно предсказывает нежелательные результаты.
Скорость точности: это скорость, при которой желаемые прогнозы оказываются правильными.
Как рассчитать матрицу путаницы для задач бинарной классификации
Следующие шаги описывают основной процесс вычисления матриц путаницы для бинарных или двухклассовых задач классификации:
1. Создайте свою таблицу
Прежде чем вводить данные, вам нужна таблица для разработки матрицы путаницы. Создайте таблицу с двумя строками и двумя столбцами, с дополнительной строкой и столбцом для маркировки диаграммы. Левая часть матрицы представляет фактические результаты, а правая часть представляет прогнозируемые результаты.
2. Введите прогнозируемые положительные и отрицательные значения.
В прогнозной строке и столбце перечислите значения, которые вы оцениваете как для положительных, так и для отрицательных результатов. Например, предположим, что вы хотите спрогнозировать количество баллов за экзамен «сдал-не сдал» по набору данных, содержащему 120 образцов. Это означает, что у вас может быть два выхода: «пройдено» или «не пройдено». Если вы прогнозируете 100 проходных баллов и 20 неудовлетворительных результатов, вы вводите эти значения в качестве выходных данных в столбцах для ваших прогнозируемых значений «пройдено» и «не пройдено».
3. Введите фактические положительные и отрицательные значения.
Проанализировав свои прогнозные значения, чтобы определить, верны ли они, вы можете ввести фактические результаты в свою матрицу. Фактические результаты становятся «истинными» и «ложными» значениями в таблице, где ваши «истинно положительные» и «ложноотрицательные» значения представляют фактические положительные результаты, а «ложноположительные» и «истинно отрицательные» значения представляют фактические отрицательные исходы.
В примере с экзаменом «сдал-не сдал» проходные баллы представляют собой положительные результаты, а неудовлетворительные баллы представляют отрицательные результаты. Если фактическое количество проходных баллов равно 110, а фактическое количество неудовлетворительных баллов равно 10, эти значения становятся вашими истинными положительными и отрицательными значениями в матрице. Ваши ложноположительные и отрицательные значения будут равны 10, потому что вы неправильно предсказываете на 10 больше неудовлетворительных оценок и на 10 меньше проходных баллов.
4. Определите показатель точности
Используя заполненную матрицу, вы можете определить степень точности прогнозирования желаемых результатов. Эта метрика измеряет, как часто вы правильно прогнозируете результаты, что может быть полезно для понимания частоты ошибок и определения того, где необходимы изменения в системах данных.
Чтобы найти степень точности, сложите истинные положительные и отрицательные значения и разделите результат на общее количество значений в вашем наборе данных. В примере результатов тестов правильное предсказание 100 проходных баллов и 10 неудовлетворительных результатов дает вам сумму 110 точных прогнозов из 120 общих баллов, что дает точность 92%.
5. Рассчитайте уровень ошибочной классификации
Коэффициент ошибочной классификации показывает, как часто ваша матрица путаницы неверна при прогнозировании фактических положительных и отрицательных результатов. Найдите это значение, сложив вместе ложноположительные и отрицательные значения и разделив эту сумму на общее количество значений в вашем наборе данных. Например, используя предыдущий пример экзаменационных баллов «сдал-не сдал», предположим, что вы неправильно предсказали 10 проходных и 10 неудовлетворительных баллов.
Ложноположительные и ложноотрицательные результаты будут равны 10 в вашей матрице. Объединение этих значений дает 20, которые вы делите на общую сумму 120 тестовых баллов. В результате коэффициент ошибочной классификации составляет 0,166, или около 17 %, что означает, что вы неверно прогнозируете результат только в 17 % случаев.
6. Найдите истинный положительный показатель
Истинная положительная скорость набора данных — это значение отзыва, которое показывает, как часто выход системы действительно положительный, когда вы прогнозируете положительный результат. Чтобы найти коэффициент припоминания, разделите количество положительных результатов, которые вы правильно предсказываете, на количество фактических положительных результатов, которые вы получаете при выполнении анализа. Например, предположим, что вы правильно предсказали 100 проходных баллов. Это истинное положительное значение, потому что вы правильно предсказываете 100 из 110 фактических проходных баллов. Разделите это истинное положительное значение на 110 проходных баллов, чтобы получить коэффициент припоминания 0,91 или 91%.
7. Определите истинный отрицательный показатель
Истинный отрицательный показатель вашей матрицы — это уровень специфичности, который показывает, как часто ваш классификатор правильно предсказывает отрицательный результат. Чтобы определить этот показатель, разделите общее количество правильно предсказанных отрицательных результатов на количество фактических отрицательных результатов, полученных в ходе анализа. Используя предыдущий пример экзаменационных баллов, предположим, что вы правильно предсказали 10 неудовлетворительных результатов из 20 прогнозов. Это дает вам истинный отрицательный результат или уровень специфичности 50%.
Пример расчета матрицы путаницы
Ученый-эколог хочет решить задачу классификации двух классов, чтобы предсказать, содержит ли популяция конкретный генетический вариант. Они могут использовать матрицу путаницы, чтобы определить, как автоматизированные процессы могут запутать анализируемую ими классификационную модель машинного обучения. Предполагая, что ученый использует 500 образцов для анализа данных, он составляет таблицу для своих прогнозируемых и фактических значений перед вычислением матрицы путаницы:
Предсказано без вариантаСпрогнозировано с вариантомФактическое число без варианта
Фактический номер с вариантом
Общее прогнозируемое значениеОбщее прогнозируемое значениеПосле создания матрицы ученый-эколог анализирует свои пробные данные. Предположим, ученый предсказывает, что 350 тестовых образцов содержат генетический вариант, а 150 образцов — нет. Если ученый определяет, что фактическое количество образцов, содержащих вариант, равно 305, фактическое количество образцов без варианта равно 195. Эти значения становятся «истинными» значениями в матрице, и ученый вводит данные в таблицу:
Прогнозируется без варианта Прогнозируется с вариантомФактическое число без варианта = 195Истинно отрицательное = 45Ложно положительное = 150Фактическое число с вариантом = 305Ложноотрицательное = 105Истинно положительное = 200
150350Используя данные из матрицы путаницы, ученый-эколог может затем вычислить истинные положительные и отрицательные коэффициенты, коэффициент точности и коэффициент неправильной классификации своей модели классификации:
*Коэффициент отзыва = (истинное положительное значение) / (фактическое положительное значение) = (200) / (305) = 0,66 = 66%*
*Коэффициент специфичности = (истинное отрицательное значение) / (фактическое отрицательное значение) = (45) / (195) = 0,23 = 23%*
*Показатель точности = (истинно положительное значение + истинно отрицательное значение) / (общее количество образцов) = (200 + 45) / (500) = (245) / (500) = 0,49 = 49%*
*Коэффициент ошибочной классификации (ошибки) = (ложноположительное значение + ложноотрицательное значение) / (общее количество образцов) = (150 + 105) / (500) = (255) / (500) = 0,51 = 51%*
Оценка этих данных может помочь ученому определить, как изменить или улучшить алгоритм классификации, чтобы повысить точность прогнозирования генетических вариаций в популяции экосистемы.