![]() Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
![]() Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
![]() |
Dummy – переменные, фиктивные переменные
Как правило, независимые переменные в регрессионных моделях имеют непрерывные области распределения. Однако некоторые переменные могут иметь всего два или дискретное множество значений, например: пол, уровень образования, рейтинг, оценка и т.д. Например: рассмотрим в качестве зависимой переменной Хотим в модель включить новую бинарную переменную, отвечающую за наличие или отсутствие высшего образования. Тогда необходимо включить в модель новую переменную d (d=1, если t-ый рабочий имеет высшее образование; d=0, если не имеет) и рассмотреть новую модель Тогда средняя заработная плата для людей без высшего образования = Т.е. коэффициент Замечание: качественное различие можно формализовать с помощью любой переменной, принимающей два значения, а не обязательно 0 и1. Но тогда интегрируемость коэффициента Замечание: если включающаяся в модель dummy переменная имеет не два, а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количество значений, но тогда, во-первых, затрудняется интерпретация, во-вторых, подразумевается одинаковое различие между состояниями признака. Поэтому вводят несколько бинарных переменных. Пример: пусть оценивается стоимость мобильного телефона. В качестве дискретного признака выступает вид телефона: Вводятся 4 бинарных переменных
Мы не включили в модель Интерпретация коэффициентов: Средняя стоимость телефона слим: Замечание: если рассматривается ситуация, когда бинарная переменная описывает не все возможные варианты, то в модель включаются все переменные. Пример: если рассматривается вторичный рынок квартир в Москве, то зависимая переменная – это стоимость 1 кв.м. В качестве одного из факторов используют количество комнат и включают в модель 4 новые переменные следующего вида:
В модель включаются все 4 переменные, т.к. в базе данных по квартирам присутствуют и многокомнатные квартиры, т.е. больше четырех комнат.
Прогнозирование
После построения регрессионного уравнения и оценки значимости ее коэффициентов, можно получить предсказанное значение результата Чтобы построить интервальный прогноз, необходимо найти верхнюю и нижнюю границы. Найдем сначала формулу стандартной ошибки прогнозирования Из этой формулы следует, что стандартная ошибка прогнозирования зависит от ошибки y-среднее и ошибки коэффициента регрессии b. Тогда
Учитывая ошибку регрессии Тогда интервальный прогноз или доверительный интервал прогнозируемого значения рассчитывается следующим образом:
Например: Строя прогноз, мы хотим получить как можно более точный прогноз и как можно меньший интервал (узкий), но чем выше Замечание: если построенная по выборке модель имеет высокий
Выбор параметров линейной регрессии (процедура пошагового отбора) При построении регрессии для подбора наиболее подходящих параметров используется либо метод включений, либо метод исключений. Смысл метода включений: 1) По матрице корреляций выбирается параметр, коэффициент корреляции которого с зависимой переменной (Y) – наибольший
2) Строится парная регрессия Y на этот параметр 3) Если коэффициент линейной регрессии значим, т.е. р<0,05, то параметр остается а 4) Берется следующий параметр. 5) Строится регрессия Y на Оценивается значимость коэффициентов. Если коэффициент при соответствующем параметре незначим, параметр исключают Если не значим – смотри пункт 4) 7) После рассмотрения последнего параметра должна получиться многомерная регрессия, у которой вес параметры значимы. 8) Рассматриваем более детально не вошедшие в модель параметры и пытаемся определить, с чем связано их не влияние: либо неудачная выборка, либо неправильно определен параметр, либо не включенные параметры влияют только во взаимодействии с другими параметрами. Смысл метода исключений: 1) Строим регрессию Y на все параметры X 2) Исключаем самый незначимый параметр. 3) Строим новую регрессию Y По окончании процедуры должна получиться регрессия Рассмотрим более детально не вошедшие в модель параметры. Выбросы – в экономике ими называются резко отличающиеся от других значения.
№3
Если рассматривать мобильные телефоны, зависимость цены от времени работы, то №1, №2, №3 – считаются выбросами, т.к. №1 и №2 имеют слишком большую цену, а у №3 при самом большом времени работы самая маленькая цена. 5%-10% от выборки. Встает проблема определения выбросов. Существует множество процедур определения выбросов. Рассмотрим один из них. Рассмотрим зависимость Y от параметров
Для определения того, является ли значение выбросом или нет, используют следующее: строят интервал следующего вида: математическое ожидание параметра
Те значения параметра, которые не попадут в этот интервал, считаются выбросами. Если при построении регрессии параметров несколько, то сначала по каждому из параметров определяются номера выбросов, а затем либо все они считаются выбросами, либо только наиболее часто встречаемые номера. Обязательное условие этой процедуры – это пояснение, почему то или иное наблюдение является выбросом.
|