Что такое перекрестная проверка в статистике? Определение с примером
14 апреля 2022 г.
Статистика важна для понимания закономерностей и того, как они могут помочь статистикам делать прогнозы. Перекрестная проверка — это метод определения того, насколько хорошо модели обучения могут прогнозировать, используя полученные данные. Понимание перекрестной проверки в статистике может помочь вам понять, почему это важный процесс в технологической отрасли. В этой статье мы даем определение перекрестной проверке, обсуждаем ее преимущества и недостатки и приводим пример ее использования, чтобы помочь вам понять, как она может помочь повысить точность моделей прогнозирующего обучения.
Что такое перекрестная проверка в статистике?
Перекрестная проверка — это метод проверки достоверности модели тестирования. При анализе данных статистики обычно используют одну из многих моделей тестирования. Перекрестная проверка чаще всего включает модели, которые используют данные для прогнозирования.
Для перекрестной проверки выбранной ими модели они утаивают часть своих данных и оставляют их непроверенными. Статистики обучают свою прогностическую модель первому набору данных, называемому обучающим набором. Зарезервированный набор данных — это набор для тестирования или проверки. Позже статистики могут использовать тестовый набор в модели и сравнивать результаты с результатами своего обучающего набора. Это помогает им оценить точность прогнозов модели с использованием разных данных. Они также могут определить, насколько хорошо цифровая модель может учиться на данных.
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Почему важно знать о перекрестной проверке в статистике?
Перекрестная проверка помогает статистикам создавать точные прогностические модели, которые могут помочь в создании программного обеспечения и других технологий, которые люди используют в своей повседневной жизни. Точность важна для создания более полезных технологий. Например, владелец компании по производству свежих продуктов может нанять специалиста по статистике, который будет использовать различное программное обеспечение для определения того, сколько продуктов может вырасти до полной зрелости или сколько продуктов может испортиться до того, как они будут проданы. Если программное обеспечение может делать точные прогнозы, оно может помочь им создавать более точные бюджеты и бизнес-планы.
Типы перекрестной проверки в статистике
В статистике существует два типа перекрестной проверки: исчерпывающая перекрестная проверка и неполная перекрестная проверка. Каждый из этих двух типов имеет свои подтипы. Вот подробности о каждом:
1. Исчерпывающая перекрестная проверка
Исчерпывающая перекрестная проверка разделяет данные на каждую комбинацию обучающих и тестовых наборов. Существует несколько основных подтипов исчерпывающей перекрестной проверки. Некоторые распространенные методы:
Перекрестная проверка без исключения (LpO CV)
Этот подтип устанавливает значение p больше единицы, а затем использует этот объем данных в качестве обучающего набора. Все остальные данные являются его проверочным набором. Этот метод повторяется до тех пор, пока не будут использованы все комбинации данных, равные p.
Перекрестная проверка с исключением одного (LOO CV)
LOO CV — это вариация метода исключения из списка, где p равно единице. Эта модель оставляет один набор данных за раз и продолжается до тех пор, пока статистик не проверит каждый отдельный набор. Преимущество этой модели в том, что она может давать менее предвзятые результаты.
2. Неполная перекрестная проверка
Неполная перекрестная проверка по-прежнему разделяет свои данные, но не в каждой комбинации. Вместо этого большинство неисчерпывающих методов создают более крупные подмножества, обычно случайным образом. Некоторые из наиболее распространенных неисчерпывающих методов перекрестной проверки включают в себя:
k-кратная перекрестная проверка
Метод k-fold случайным образом делит данные на k подмножеств. Каждое подмножество имеет равное количество наборов данных и по очереди выступает в качестве тестового набора, а остальные подмножества действуют вместе как обучающий набор. Этот метод продолжается до тех пор, пока статистик не проверит каждое подмножество.
Метод удержания
Этот метод случайным образом делит данные на обучающую выборку и проверочную выборку. Этот метод использует эти два набора только для этих конкретных целей. Статистик обучает модель один раз, а затем тестирует ее один раз.
Метод Монте-Карло
Метод Монте-Карло случайным образом делит данные на подмножества, а затем повторяет процесс. После каждой фазы тестового набора все использованные данные возвращаются в набор данных. Затем данные снова делятся на случайные подмножества. Из-за этого статистики могут использовать одни данные чаще и реже или никогда не использовать другие данные.
Преимущества использования перекрестной проверки
Перекрестная проверка предлагает множество преимуществ статистикам и другим специалистам, использующим проверенные модели. Большинство этих преимуществ связаны с тем, как перекрестная проверка использует свои данные для повышения точности прогнозов. Некоторые из главных преимуществ использования перекрестной проверки включают в себя:
Тестирует большие и малые наборы данных
Поскольку существует несколько методов перекрестной проверки, статистики могут использовать их для проверки наборов данных разного размера. Например, в то время как большинство методов могут помочь тестировать модели с использованием любого количества данных, метод k-fold особенно хорошо подходит для небольших наборов данных. Это помогает статистикам тестировать свои модели, используя любой объем собранных данных.
Эффективно использует данные
Перекрестная проверка использует свои данные как для обучения, так и для тестирования своих моделей. Это помогает статистикам создавать более точные модели, используя имеющиеся у них данные. Эта эффективность может помочь сэкономить время и деньги при создании и улучшении прогностических моделей.
Предлагает больше показателей
Большинство методов перекрестной проверки включают в себя несколько этапов тестирования, каждый из которых предлагает результаты. Это дает статистику несколько возможностей измерить точность прогнозов своей модели. Наличие большего количества метрик для изучения может помочь статистикам найти и исправить проблемы в своей модели, что может помочь повысить ее точность.
Недостатки использования перекрестной проверки
Перекрестная проверка также может иметь некоторые недостатки. Их знание может помочь статистикам заранее подготовиться к проблемам или решить их. Некоторые общие недостатки использования перекрестной проверки включают в себя:
Занимает много времени
Большинство методов перекрестной проверки включают выполнение множества тестов. Каждый из этих тестов требует времени для выполнения. Некоторые методы перекрестной проверки, особенно исчерпывающего типа, могут занять много времени. Если вы планируете выполнять перекрестную проверку, подумайте о том, чтобы запланировать дополнительное время для выполнения тестов, чтобы завершить их до установленного срока.
Увеличивает вычислительные затраты
Компьютеры могут помочь протестировать модели с перекрестной проверкой. Для выполнения некоторых методов, таких как метод LOO CV, может потребоваться много вычислительной мощности. Покупка, установка и питание этих компьютеров может стоить больших денег. Некоторые статистики могут иметь доступ к необходимой вычислительной мощности. Те, кто этого не делает, могут подумать об увеличении бюджета своего проекта перед началом.
Не учитывает рандомизацию
Рандомизация является частью многих методов перекрестной проверки. Рандомизированные наборы данных иногда могут быть слишком похожими или слишком разными. В некоторых методах рандомизация может означать не использование всех собранных данных. Любая из этих ситуаций может помешать модели стать более точной. Те, кто тестирует прогностические модели, могут оценивать наборы данных, используемые для определения того, могли ли они повлиять на результаты их тестирования.
Пример перекрестной проверки
Вот пример того, как может выглядеть процесс перекрестной проверки. В этом примере используется метод k-fold с набором из 10 элементов данных. Эти числа представляют данные:
3, 5, 9, 2, 0, 4, 3, 6, 8, 5
к = 5
Поскольку метод использует одинаковые подмножества, k может равняться пяти. Это означает, что имеется пять четных подмножеств, каждое из которых содержит два набора данных. Разделите группы случайным образом. Пять подмножеств могут выглядеть следующим образом:
Сложите 1: [9, 4]
Сгиб 2: [5, 3]
Сложите 3: [8, 2]
Сложите 4: [0, 5]
Сгиб 5: [6, 3]
Вы можете использовать эти подмножества для обучения многих моделей. Если вы проверяете точность одной модели со всеми пятью, вы можете позволить каждому подмножеству по очереди выступать в качестве тестового набора, например так:
Первый тест: тренируйтесь со складками 1, 2, 3, 4 и тестируйте со складками 5.
Второй тест: тренируйтесь со складками 1, 2, 3, 5 и тестируйте со складками 4.
Третий тест: тренируйтесь со складками 1, 2, 4, 5 и тестируйте со складками 3.
Четвертый тест: тренируйтесь со складками 1, 3, 4, 5 и тестируйте со складками 2.
Тест пятый: тренируйтесь со сгибами 2, 3, 4, 5 и тестируйте со сгибом 1.
Для каждого теста вводите обучающие подмножества и записывайте результаты. Затем введите тестовое подмножество и запишите эти результаты. После всех пяти тестов у вас есть список результатов тренировок и тестов. Вы можете сравнить их, чтобы увидеть, насколько точна модель. Затем вы можете создать отчет о своих выводах, чтобы помочь своим коллегам понять точность модели.