Что такое ресемплинг? (с определением и типами)
2 апреля 2022 г.
При сборе выборок по большим группам людей, объектов или данных существует несколько способов проверки точности. Одним из обычно используемых методов является повторная выборка, при которой вы берете дополнительные образцы и наблюдения для выявления каких-либо отклонений или проблем. Знакомство с этой концепцией может помочь вам решить, подходит ли для вашего тестирования использование каких-либо распространенных методов передискретизации. В этой статье мы обсудим, что такое повторная выборка, и поделимся важными подробностями о ней, например, чем она отличается от выборки и какие существуют методы.
Что такое ресемплинг?
Повторная выборка — это ряд методов, используемых в статистике для сбора дополнительной информации о выборке. Это может включать повторный отбор пробы или оценку ее точности. С помощью этих дополнительных методов повторная выборка часто повышает общую точность и оценивает любую неопределенность в совокупности.
Выборка против повторной выборки
Выборка — это процесс отбора определенных групп населения для сбора данных. Повторная выборка часто включает в себя выполнение аналогичных методов тестирования с размерами выборки в этой группе. Это может означать тестирование той же выборки или повторный выбор выборок, которые могут предоставить больше информации о совокупности. Существует несколько различий между выборкой и повторной выборкой, в том числе:
Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)
Методы
В ресэмплинге используются такие методы, как метод начальной загрузки и тесты перестановки. При выборке существует четыре основных метода:
Простая случайная выборка. Простая случайная выборка — это когда каждый человек или часть данных в совокупности или группе имеют равные шансы на выборку. Вы можете генерировать случайные числа или использовать другой процесс случайного выбора.
Систематическая выборка: систематическая выборка часто все еще случайна, но люди могут получить числа или значения в начале. Затем человек, проводящий эксперимент, может выбрать интервалы для разделения группы, как и каждый третий человек.
Стратифицированная выборка: Стратифицированная выборка — это когда вы делите основную совокупность на несколько подгрупп на основе определенных качеств. Это может означать сбор образцов из групп разных возрастов, культур или других демографических групп.
Кластерная выборка. Кластерная выборка аналогична стратифицированной выборке, поскольку вы можете разделить совокупность на отдельные подгруппы. Вместо скоординированных групп со схожими качествами вы выбираете эти группы случайным образом, что часто приводит к различиям в результатах.
Цели
Основная цель выборки — собрать информацию о большей группе людей или данных, не опрашивая каждого человека. Повторная выборка идет дальше, поскольку она надеется выявить любые большие отклонения от предположений. Например, вы можете выбрать 30 человек из 100, чтобы узнать их предпочтения в отношении завтрака. При выборке можно узнать, какой процент предпочитает яйца, йогурт или овсянку. С помощью повторной выборки вы можете взять части той же группы или других из 100, чтобы узнать, были ли точны проценты, определенные в результате выборки.
Предположения
Выборка зависит от предположений, позволяющих понять, какими качествами могут обладать более крупные группы. При повторной выборке существуют ограниченные предположения. Часто существует меньше требований к размеру и различные методы тестирования образцов. Это поможет вам сосредоточиться на данных при нескольких повторных выборках, чтобы проверить точность и свести к минимуму систематическую ошибку.
Причины
Люди выбирают популяции и испытуемых, так как это может быть более дешевой альтернативой, чем наблюдение за полными группами. Точно так же может быть проще собрать данные из выборки, чем пытаться наблюдать за всей группой в течение определенного периода времени. Целью повторной выборки является проверка или подкрепление данных, собранных при выборке. Хотя повторная выборка может стоить дороже, так как вы можете выполнить несколько новых наблюдений, она может помочь вам получить более точные результаты.
Ошибки
Выборка имеет несколько распространенных ошибок, с которыми вы можете столкнуться:
Смещение выборки: смещение выборки возникает, когда возникает проблема при выборе наблюдений. Например, кто-то может выбрать для ответов на вопросы только людей, которых он знает или с определенными характеристиками.
Ошибка выборки: ошибка выборки возникает, когда выборка, выбранная для представления целого, неточна. Это означает, что параметры полной популяции отличаются от наблюдаемых выборок.
Поскольку повторная выборка помогает выявить ошибки или отклонения в выборках, распространенных ошибок не бывает. Это все еще может произойти, если вычисления, такие как среднее значение по результатам повторной выборки, имеют ошибки.
Типы передискретизации
Существует несколько видов повторной выборки:
Начальная загрузка
Техника начальной загрузки — это когда вы повторяете наблюдения, которые вы делаете, с помощью повторной выборки. Например, если вы выбрали 10 человек из 100 для наблюдения за гипотезой, вы можете сделать это несколько раз, каждый раз выбирая 10 новых людей. Это помогает уменьшить любые статистические ошибки, поскольку затем вы можете собирать такие измерения, как среднее или медиана между этими выборками, чтобы получить более точные результаты. Часто называемый методом подключаемых модулей, он распространен в таких областях, как физика и генетические алгоритмы.
складной нож
Складной нож — это метод повторной выборки, который помогает людям выявлять дисперсию или систематическую ошибку в выборках. Вы используете это, чтобы удалить одно наблюдение из группы, чтобы создать подвыборку. В выборке вы можете каждый раз удалять одно наблюдение и собирать результаты, чтобы понять, есть ли систематическая ошибка. Например, если у вас есть 10 наблюдений, пронумерованных от 1 до 10, вы можете удалить одно и посмотреть результаты. Затем вы можете удалить два и продолжить до 10, чтобы увидеть, есть ли какие-либо выбросы в выборке.
Перекрестная проверка
Статистики часто используют перекрестную проверку для прогностических статистических моделей. С помощью этого метода вы можете отложить несколько фрагментов данных в выборке в качестве проверочного набора. Остальные наблюдения, оставшиеся в группе, являются тренировочным набором. Тестирование обучающего набора позволяет людям предсказать проверочный набор. Каждый раз, когда вы выполняете перекрестную проверку, вы можете получить среднее значение точности прогнозов, чтобы узнать точность каждой прогнозной модели.
Перестановочный тест
Перестановочные тесты — это когда вы выполняете точный тест несколько раз с нулевой гипотезой. Это помогает вам автоматически создавать выборку в совокупности и выполнять те же наблюдения. Этот метод тестирования может установить взаимозаменяемость различных наблюдений или возможность обмена метками в наборе.