Множественный регрессионный анализ позволяет производить оценку случайной связи между зависимой переменной Y и любым количеством независимых переменных Xi=X1,X2,X3,...,Xk. Данную функцию можно представить в виде уравнения:
Основа множественного регрессионного анализа - это оценка параметров регрессии, или коэффициентов, для каждой независимой переменной.
Каждый параметр, в свою очередь, его функциональная зависимость, коэффициенты, является мерой того, как каждая независимая Xi переменная влияет на зависимую переменную Y
В основе множественного регрессионного анализа, статистических критериев его оценки лежит одномерная, многомерная статистика. Для лучшего понимания предложенного далее процесса построения регрессионных моделей рассмотрим некоторые существенные моменты их базовых основ.
В основу эконометрики положены базовые понятия, принципы, концепции:
Многочисленные опыты и наблюдения показали, что частости m/n ожидаемых случайных событий A приближаются к их вероятности P(A) по мере увеличения числа испытаний n. Так, если одну и ту же монету подбрасывать большое число раз, то можно ожидать, что чем больше число испытаний, тем ближе к единице оказывается отношение выпавших гербов и решек, а частость каждого события становится ближе к его вероятности.
Этот закон утверждает, что частость m/n события А будет сколь угодно близкой к его вероятности P(A), если число n испытаний неограниченно возрастает.
Можно взять сколь угодно малое число и сравнивать его с разницей между частостью и вероятностью события. Вероятность того, что эта разница превысит число e -> error, будет стремиться к нулю при стремлении числа испытаний n к бесконечности, т. е.
В процессе эконометрического наблюдения обследованию могут подвергаться все элементы однородной совокупности или некоторая часть. Все элементы однородной совокупности назвали генеральной совокупностью, а некоторую часть, которая корректно описывает, характеризует всю генеральную совокупность, назвали выборкой (выборочным наблюдением или не сплошным наблюдением). Например, если требуется обследовать большой коллектив рабочих одной и той же профессии, то весь коллектив данной профессии называется однородной генеральной совокупностью, а выделенная для обследования часть коллектива исследуемой профессии называется выборочной совокупностью или выборкой. Обратите внимание, на важное понятие 'однородности' генеральной совокупности, выборки: исследовались и отбирались рабочие только 'одной' профессии.
При этом утверждается, чтобы на основе обследования некоторой части совокупности - выборки можно достоверно судить обо всей исследуемой однородной совокупности - генеральной. Т.е. изучая отдельные части целого, исследователь должен понять все целое. Естественно желание сформировать выборку так, чтобы она наилучшим образом представляла целое - генеральную совокупность.
Как этого добиться?
Если целое - генеральная совокупность нам неизвестна, то ничего лучшего не удается предложить для формирования выборки, чем чисто случайный выбор. Т.е. как бы исследователь хорошо не знал свой предмет, то все равно на некоторой стадии наступает незнание, и как результат он неизбежно будет полагаться на интуицию - его величество случай.
Любое выборочное наблюдение не дает точной характеристики всей генеральной совокупности. Поэтому каждый результат, вычисленный по данным выборки, имеет некоторую погрешность - вспомните закон больших чисел. Эта погрешность выборки называется ошибкой репрезентативности (или представительности). Ошибка репрезентативности показывает величину расхождения между показателями по данным выборочного обследования и соответствующими показателями всей статистической генеральной совокупности.
Случайный характер отбора объектов обследования в выборке приводит к случайному же характеру ошибок репрезентативности. Поэтому здесь можно на основе закона больших чисел, увеличивая объем выборки, регулировать пределы возможной ошибки репрезентативности и, наоборот, по заданному пределу допустимой ошибки определить необходимую численность выборки. При вычислении средней величины она определяется как разность между выборочной средней и генеральной средней. Эта ошибка выборочного метода порождает смещение в оценках генеральной совокупности. Например, если мы хотим обследовать некоторую отрасль или общество, то соответственно в выборке должны быть представлены малые, средние, большие предприятия данной отрасли, все слои общества из всех регионов.
Генеральной совокупностью (X) называют множество результатов всех мыслимых наблюдений над значениями одного или нескольких признаков, которые могут быть сделаны при данном комплексе условий. При этом комплекс условий определяет вариацию признаков генеральной совокупности. Синонимом генеральной совокупности в статистике является случайная величина X.
Выборочной совокупностью (выборкой) x1,x2,..,xn называют множество результатов, случайно отобранных из генеральной совокупности. Выборка должна быть репрезентативной, т.е. правильно отражать пропорции генеральной совокупности. Это достигается случайностью отбора, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отобранными. Задача статистики практически сводится к обоснованному суждению об объективных свойствах генеральной совокупности по результатам случайной выборки. Репрезентативность выборки достигается способом рандомизации (от англ. random - случай) или случайным отбором вариант из генеральной совокупности, что обеспечивает равную возможность для всех членов генеральной совокупности попасть в состав выборки.
В основе объяснения перехода от характеристик случайной величины X, которые вычисляются на основе точного знания исследуемого закона распределения, к эмпирическим (выборочным) лежит интерпретация выборки как модели генеральной совокупности, в которой возможными значениями являются наблюдавшиеся (т.е. практически реализованные) значения x1,x2,..,xn а в качестве вероятностей берутся соответствующие относительные частоты их появления в выборке, т.е. величины, равные 1/n.
Сказанное проиллюстрируем на примере наиболее часто используемых параметров для оценки генеральной совокупности начального момента первого порядка - математическое ожидание µ1 и центрального момента второго порядка - дисперсия µ2.
Исходя из формулы математического ожидания, мы пришли к формуле средней арифметической (выборочной средней - MX), основной и наиболее употребительной характеристики центра группирования:
Таким образом, средняя арифметическая MX является выборочным аналогом математического ожидания генеральной совокупности µ1, т.е. µ1=>MX.
Учитывая, что для выборки µ1=МX, pi=1/n получим:
Таким образом, выборочная дисперсия DX является выборочным аналогом дисперсии генеральной совокупности µ2, т.е. µ2=>DX. Было установлено, что данное уравнение выборочной дисперсии оказывается смещенной по отношению к своему генеральному параметру на величину, равную n/(n-1).
Данное смещение вполне очевидно, в формуле дисперсии выборки, размер которой n присутствует МХ, который забирает одну степень свободы:
Перед каждым исследователем стоит задача так сформировать выборку, чтобы она более полно (репрезентативно) отражала генеральную совокупность. Т.е. без ошибок и/или когда ошибка близка к 0, ошибка e=>0.
Приведем конкретный пример. Пусть в коллективе из 20000 рабочих средняя месячная заработная плата рабочего (генеральная средняя) составляет 95,9 руб. При выборочном обследовании 1000 рабочих средняя заработная плата рабочего (выборочная средняя) оказалась равной 96 руб. Отсюда ошибка репрезентативности при выборочном обследовании определяется так:
Аналогично проводится вычисление ошибки репрезентативности при определении доли изучаемого признака в некоторой генеральной совокупности. Если N - численность генеральной совокупности, a M - количество единиц, обладающих данным признаком в ее составе, то доля (р) единиц, обладающих этим признаком в генеральной совокупности p=M/N называется генеральной долей. Если для выборочной совокупности n обозначает численность выборки, m-количество единиц, обладающих изучаемым признаком в составе выборочной совокупности, а w-долю соответствующих единиц в составе выборки, то выборочная доля - w=m/n.
Пусть в рассматриваемом коллективе из N=20000 рабочих имеется 1250 учеников, т.е. M=1250. Этим определяется генеральная доля учеников в объеме генеральной совокупности:
В выборочной совокупности из n=1000 человек оказалось m=64 ученика. Этим определяется выборочная доля:
Ошибка репрезентативности, таким образом, составляет:
В статистике используются два различных варианта интерпретации выборки и ее отдельных элементов.
При ПЕРВОМ (практическом) варианте интерпретации под ВЫБОРКОЙ x1,x2,..,xn понимаются фактически выявленные значения исследуемой случайной величины, т. е. конкретные числа.
В соответствии со ВТОРЫМ вариантом интерпретации под ВЫБОРКОЙ x1,x2,..,xn понимается последовательность независимых, одинаково распределенных случайных величин, закон распределения которых совпадает с распределением генеральной совокупности.
Данный момент вполне очевиден - выборка формируется на основании принципа рандомизации - случайного выбора данных из генеральной совокупности, поэтому выборочные характеристики (MX, DX, m/n) являются естественно СЛУЧАЙНЫМИ величинами, в отличие от ГЕНЕРАЛЬНОЙ совокупности.
Во многих случаях параметры генеральной совокупности µ1; µ2; p неизвестны, а известны лишь полученные по выборке их оценки, значения средней арифметической MX, выборочного среднего квадратического отклонения Sqr(DXmx) или относительной частоты w=m/n.
где Sqr(DX)=Sqr(1/(n)*Sum((xi-МX)^2) - собственно выборочный средне квадратичное отклонение. Оценку значения средней квадратической ошибки sw относительной частоты генеральной совокупности Sqr(µ2w) находят с помощью формулы:
При бесповторном отборе вариант из численно ограниченной генеральной совокупности ошибка выборочной средней оказывается несколько завышенной, особенно в тех случаях, когда объем выборки достаточно велик (n>25% от N).
Учитывая это обстоятельство, К. Пирсон (1898) предложил поправку Sqr((N-n)/(N-1)), которую в этом случае необходимо вносить в качестве множителя в формулу Sqr(DXmx)=Sqr(DX)/Sqr(n). При этом вместо (N-n)/(N-1) можно использовать приближенную величину 1-n/N, где n/N - доля выборки, т.е. вычислять ошибку средней по формуле:
Чем больше доля выборки, тем сильнее скажется поправка на величине ошибки средней. Если же доля выборки мала, что наиболее часто встречается в практике, поправка оказывается близкой к единице и величина ошибки средней практически не изменится. Поэтому в тех случаях, когда объем генеральной совокупности N достаточно велик по сравнению с объемом выборки n, величина поправки 1-n/N будет близка к единице и ею можно пренебречь:
Пример. Из общего числа 500 мужчин, подлежащих призыву на военную службу, выборочно измерен рост у 80 человек. Средний рост призывников оказался равен 170 см с дисперсией DX=66,3. Определим ошибку Sqr(DXmx) для этой средней:
Если же ошибку средней вычислить без поправки Пирсона, она оказывается следующей:
Одно лишь свойство специфично для ошибок репрезентативности: они уменьшаются при увеличении объема выборки, т. е. при n=>oo, Sqr(DXmx)=>0. Это свойство статистических ошибок обусловлено действием закона больших чисел, по которому наиболее вероятный результат получается при наибольшем числе испытаний.
Отсюда понятно значение ошибки: она указывает на точность, с какой выборочный показатель репрезентирует, представляет, описывает генеральный параметр. Чем меньше ошибка, тем ближе выборочная характеристика к величине генерального параметра, и, наоборот, чем больше ошибка, тем менее точно выборочная характеристика репрезентирует генеральный параметр.
Ошибками репрезентативности сопровождаются и другие выборочные показатели, из которых необходимо отметить следующие:
В практической работе мы часто встречаемся с анализом выборочных средних.
Рассмотрим это распределение, известное также как распределение Стьюдента, или t-распределение, а также его многомерное обобщение, данное Гарольдом Хотеллингом, критерий Хотеллинга T2.
У.С.Госсет рассуждал следующим образом. Допустим, дисперсия µ2 генеральной совокупности известна или определена заранее, а средняя величина µ1 генеральной совокупности не известна, и ее можно вычислить только как среднюю по выборке - MX. При этом генеральная совокупность описывается нормальным распределением, а все случайные наблюдения - отобранные данные Xi, которые мы включили в выборку, были взяты из ДАННОЙ ИССЛЕДУЕМОЙ генеральной совокупности, а не из какой-нибудь другой. В результате благодаря принципу рандомизации - случайного отбора, предложенного Р.Фишером, средняя величина выборки - MX НЕ БУДЕТ СУЩЕСТВЕННО отличаться от средней величины µ1 генеральной совокупности. Если же часть (или ВСЕ) наблюдения случайно отобранных данных Xi, которые мы включили в выборку были взяты из ДРУГОЙ генеральной совокупности, то средняя величина выборки - MХ БУДЕТ СУЩЕСТВЕННО отличаться от средней величины µ1 ИССЛЕДУЕМОЙ генеральной совокупности.
Очевидно, что существует бесконечно много нормальных плотностей вероятности, зависящих от различных комбинаций МХ и DX. К счастью, мы можем выразить нормальную плотность в стандартной форме, записав ее как функцию стандартизованной переменной z, а не Xi. Эта стандартизованная переменная определяется как:
Рассмотрим числовой пример. Предположим, что относительно величины Xi известно, что она распределена нормально, со средним значением, равным µ1=10 единицам, и дисперсией µ2=4 единицам. Еще раз вспомним, что распространенным (и удобным) понятием в статистике является понятие генеральной совокупности, которое определяется как совокупность всех мыслимых наблюдений (но не значений), которые могли бы быть сделаны при данном, реальном комплексе условий. В свою очередь реальный комплекс условий математически полностью определяется законом распределения вероятностей, и в частности функцией плотности вероятности. Какова вероятность того, что случайное наблюдение, извлеченное из этой генеральной совокупности, даст значение Xi, равное или большее 12? В стандартной шкале z искомое значение Xi равно:
Вероятность того, что X будет больше 12, равна 0.15866, а вероятность того, что Xi будет меньше 12, равна: 1,0 - 0,15866=0,84134, так как общая площадь под кривой равна единице. Имея в виду, что плотность симметрична, вероятность получения значения X, равного или меньшего 8 (т.е. z=1,0), также будет составлять 0,15866.
Для проведения грамотного множественного регрессионного анализа необходимо понимание (интерпретация) его экономического смысла. Данный анализ начнем с выявления (идентификации) переменных.
При любом эмпирическом изучении функции в первую очередь нам необходимо выявить независимые переменные Xi=X1,X2,...,Xk и их связь с зависимой переменной Y:
Однако недостаточно определить связь переменных X1,X2,...,Xk с зависимой переменной Y. Мы должны также определить, имеют ли независимые переменные связи друг с другом. Построение многовариантной функции часто затруднено вследствие близких взаимных связей между внешними (исследуемыми) факторами X1,X2,...,Xk, определяющими Y, и тем фактом, что их величины изменяются более или менее случайно. Это последнее обстоятельство особенно досадно, так как трудно определить, какое реальное действие оказывает на Y одна из переменных в то время, как остальные переменные не изменяются.
При анализе простой (парной) регрессии мы полагаем, что Y изменяется в результате изменений X1, в то время как все остальные переменные X2, X3, ..., Xk не меняются. Такой же анализ можно осуществить и в отношении к остальным факторам.
Некорректное решение данных проблем в совокупности приведет к неверно построенной модели исследуемых экономических процессов.
В частности, если для оценки функции используется анализ временных рядов, то мы должны знать о существовании проблемы идентификации, так как за период, достаточно продолжительный для данного анализа, можно ожидать изменения и других переменных, кроме анализируемой в данный момент переменной. Многие количественные переменные могут быть легко выявлены. Качественные переменные прямо не вычисляются. Тем не менее, степень их изменений может быть представлена в численном виде и, следовательно, может быть включена во множественный регрессионный анализ.
Например, качество некого товара можно оценивать не в целом как 'некое качество', что явно не поддается эконометрической обработке, а по 10-ти или 100 бальной системе. В результате качественная переменная приобретает количественное свойство и ее можно с успехом подвергнуть эконометрической обработке.
Когда переменные выявлены, необходимо получить о них информацию. Источники такой информации, конечно же, определяются требованиями к модели.
Вопрос о том, какую информацию лучше использовать - ежедневную, месячную, квартальную или годовую, - чаще всего решается на основе доступности. Многие организации не публикуют экономические сборники так часто, как этого хотелось бы исследователям, оставляя им возможность пользоваться лишь ежегодной информацией. При возможности было бы желательно иметь как можно большее количество наблюдений, что позволяет достичь большей эконометрической достоверности.
Например, данные временных рядов должны быть скорректированы с учетом изменений численности населения, инфляции, процентных ставок и т.д. Данные могут нуждаться в сезонном уточнении. Далее, так как многие экономические явления реагируют на изменение условий с некоторой задержкой (временным лагом), эконометрические модели, в которых используется информация, должны создаваться с применением скорее опережающих, чем текущих переменных. Кроме того, тот или другой ряд, может быть, сдвинут во времени таким образом, чтобы действие и реакция на это действие происходили одновременно.
В результате изменений цен на нефть, солнечной активности, можно ожидать рост цен на выпускаемую продукцию через механизмы спроса и предложения, и как следствие снижение спроса потребителей, что в свою очередь с временным лагом в 1 год вызывает рост безработицы, которая неизбежно приводит к падению ВВП страны.
Вопрос о том, какое количество наблюдений необходимо для получения обоснованных эконометрических результатов, не прост. Адекватных результатов можно ожидать, если мы будем работать со всей генеральной совокупностью. Но это редко удается. Обычно ограничения во времени и в деньгах, выделенных на сбор информации, вынуждают исследователей использовать выборочный метод.
Основное правило состоит в том, что для хорошо выбранной модели требуется количество наблюдений, по крайней мере, в 3 или 5 раза большее, чем количество независимых переменных.
Если модель (ее функциональное описание) выбрана неправильно, то никакой объем информации не поможет получить корректный результат.
Следующий этап состоит в выборе формы (функциональной зависимости) регрессионного уравнения.
Многие нелинейные зависимости, функции можно свести к линейным в доступном интервале эмпирических данных. В таком случае наилучшей формой является уравнение, описывающее регрессионную плоскость сверху, снизу или совпадающее с наблюденными точками. Самое простое оценочное уравнение имеет вид:
Когда данные указывают на то, что функция их распределения не совсем линейна, мы можем свести ее к линейным формам. Например, ниже приведенные нелинейные формы приводятся к линейным:
И использовать ту из них, которая лучше описывает связь между зависимой Y и независимыми переменными Xi.
В данном анализе множественная регрессия является расширением метода наименьших квадратов для простой (парной) линейной регрессии. Метод наименьших квадратов может быть быстро и точно применен для оценки коэффициентов регрессии. Анализ должен не только содержать значения всех параметров регрессионного уравнения, но также и проверочную информацию (статистические критерии), по которой можно судить о правильности выбранной модели.
В данном расчете, во-первых, надо убедиться в наличии функциональной связи (линейной, нелинейной) между зависимой Y и независимыми переменными Xi.
Данная проверка осуществляется сопоставлением зависимой переменной Y с каждой из независимых переменных Xi. Для чего используют аналитические (построение функциональных зависимостей) и графические методы.
Если бы мы использовали данные временных рядов, то нам бы пришлось бы проверять их по каждой независимой переменной на линейность, организуя точки X, во времени. Если же какая-либо из переменных изменяется нелинейно, то необходимо применить соответствующее преобразование.
Для каждого исследуемого случая расположение точек на графике будет говорить о линейной или нелинейной связи независимых переменных Xi с зависимой переменной Y. Следовательно, мы можем применять множественную регрессию без какой-либо дальнейшей корректировки данных.
Таким образом, мы получаем не только расчет регрессионного уравнения, но и информацию, и тестовую статистику, необходимые для проведения регрессионного анализа.
Для наблюдения последствий систематического введения в уравнение независимых переменных будем использовать пошаговый множественно-регрессионный анализ.
Тем не менее, очень важно иметь априорные экономические соображения о целесообразности включения в уравнение каждой независимой переменной. При этом необходимо учитывать, что сильная корреляция между зависимой переменной и некоторой определенной независимой переменной необязательно указывает на причину и следствие. Многие величины могут быть связаны через другую переменную.
Кроме того, нельзя недооценивать переменную, регрессионный коэффициент которой показывает ее статистическую не значимость. Если априори существуют экономические соображения о важности этой переменной, то ее лучше оставить в анализе. Отсутствие значимости или даже неправильный знак при переменной могут быть результатом эффекта мультиколлинеарности - сильной взаимосвязи различных переменных Xi.
Математические характеристики множественной регрессии таковы, что результаты анализа могут быть улучшены путем увеличения количества наблюдений. В некоторых случаях они также могут быть улучшены путем введения добавочных переменных.
Задачами множественного регрессионного анализа являются получение надежной оценки параметров для независимых переменных на основе выборки, а также статистических выводов об этих параметрах, как индивидуальных, так и сгруппированных, и проверка правильности оценочного уравнения регрессии.
Программа, к сожалению, выполнит любой регрессионный анализ, данные для которого представлены в корректной форме, независимо от экономического смысла.
Таким образом, наша задача заключается в определении правильности применения расчетов для прогнозирования зависимой переменной.
Ответ на первый вопрос основан на экономической теории и на суждениях исследователя. Для того чтобы ответить на второй вопрос, необходимо провести определенные статистические тесты, оценивающие как отдельные параметры, так и модель в целом.
Каждый коэффициент регрессии представляет собой крайнее значение реакции переменной Y на единичное изменение соответствующей независимой переменной Xi. Знак параметра указывает направление изменения переменной Y по отношению к изменению независимой переменной Xi.
Положительный знак показывает, что, например, переменная спроса изменяется в том же направлении, что и независимая переменная; отрицательный - что эти переменные изменяются в противоположных направлениях.
Необходимо проверить знак параметра, чтобы определить, показывает ли он теоретически правильное относительное изменение переменных.
Если знак неверен, то это может говорить о том, что мы неправильно построили модель и/или упустили важную переменную. В некоторых случаях неверный знак сопутствует другим симптомам возникновения статистической проблемы, например, мультиколлинеарности.
Это проверка параметра на экономический смысл. Хотя и не существует общепринятых пределов, большинство экономистов субъективно ограничивают значения каждого параметра определенными рамками. Иногда параметр может принять такое значение, которое явно невозможно.
Способы интерпретации и использования этих методов проверки рассмотрим более детально.
Множественная регрессия описывает регрессионную плоскость, а наблюдаемые точки (значения) лежат выше, ниже или на этой плоскости.
Множественный коэффициент детерминации является мерой того, насколько хорошо плоскость, описываемая регрессионным уравнением, удовлетворяет экспериментальным данным. При этом полная вариация переменной Y может быть разделена на две части:
Определения вариации и дисперсии в данном случае находятся в соответствии.
Множественный коэффициент детерминации R2, определяется как часть общего изменения переменной Y, относящаяся к изменениям всех вместе взятых независимых переменных X1, X2, X3, ..., Xk из наилучшего выбранного уравнения.
Этот коэффициент имеет исключительно математический смысл и не определяет никакой экономически обоснованной причинно-следственной связи.
или
Это означает, что 99,69% изменений Y объясняется Xi взятых вместе и подставленных в наилучшее уравнение регрессии.
Величина R2 лежит в интервале от нуля до единицы.
Если вариация спроса полностью объяснима, то это должно означать, что все наблюденные точки лежат на плоскости регрессии (на линии для 2-х мерного варианта) с нулевыми отклонениями.
Для эмпирического анализа нет ничего необычного в том, чтобы получить высокий R2 при статистически незначимых или имеющих бессмысленный знак коэффициентах регрессии. Более того, одним из свойств метода наименьших квадратов для множественной регрессии является то, что при добавлении еще одной независимой переменной может произойти не снижение, а, наоборот, повышение R2 вне зависимости от того, связана ли введенная переменная с Y или нет.
По этой причине может возникнуть желание (с целью достичь более высокого значения R2) ввести как можно больше переменных. Однако с этим желанием надо бороться, так как немного можно сказать о модели, которая включает переменные, не имеющие теоретического обоснования. Мы должны помнить, что нашей целью является разработка надежных истинных экономически интерпретируемых оценок групповых параметров, а не получение высокого R2.
Скорректированный множественный коэффициент детерминации, или R2коррект.
Еще одной характеристикой R2 является его чувствительность к количеству наблюдений, входящих в регрессию.
Если количество наблюдений равно количеству независимых переменных, то каждая точка наблюдений будет лежать точно на регрессионной плоскости и расчетное значение будет равно наблюденному значению Y. Тогда R2=1, однако, это говорит скорее о недостатке информации, чем о благоприятном совпадении.
Чтобы получить информативные результаты, мы должны иметь количество наблюдений, достаточное для того, чтобы переменная спроса имела некоторую свободу изменений, т.е. число степеней свободы должно быть больше нуля. Термин 'степени свободы' (или df) означает, что если нам известно n-1 членов суммы, то i-й член определяется автоматически. Например, если мы знаем, что сумма 5 членов есть 15 и знаем, что первые четыре члена - это 1, 2, 3 и 4, сумма которых дает 10, то пятый член обязательно должен быть 5. Он не может быть чем-либо другим, следовательно df=(5-1)=4.
Для определения каждого параметра требуется, по крайней мере, одно наблюдение, и на каждый параметр теряется одна степень свободы. Если мы имеем n наблюдений, то число степеней свободы составляет df=n-k-1.
Для того чтобы уделить должное внимание степеням свободы, определяемым количеством наблюдений и количеством параметров, статистики ввели скорректированный (истинный) множественный коэффициент детерминации, R2коррект. Его формула имеет следующий вид:
В нашем случае:
Каковы приемлемые значения для R2коррект? Это, в основном, дело индивидуальных соображений, и соображения эти меняются в зависимости от исследуемого объекта. Например, кросс-секционный анализ, рассматривающий демографические связи, имеет тенденцию занижать уровень R2коррект. по сравнению с методом временных рядов, работающим с ретроспективными связями.
Обычно если количество наблюдений, по крайней мере, в три или четыре раза больше количества независимых переменных, то приемлемым считается R2>0,75.
Когда исследователь изучает одномерные эконометрические параметры, то первое, что он вычисляет это первый момент - среднее изучаемого параметра - МХ, а величина среднего разброса данных относительно средней есть дисперсия DX=1/(n-1)*Sum(Xi-MX) или среднеквадратичное отклонение SX=DX^0.5.
Данный подход и оценки, характерные для одномерной статистики, полностью переносится и на многомерный статистический анализ и, в частности, на регрессионный анализ. Например, при двух переменных, каждая из которых представлена в векторной форме Y, X, роль средней (МХ) выполняет кривая, в частном случае прямая линия. Она так проведена между всеми i-ми точками (Yi, Xi) статистических данных, что все они в среднем находятся на минимальном расстоянии от построенной регрессионной линии.
Чтобы не вносить путаницу для многомерной статистики данная статистика DX^0.5 называется стандартной ошибкой оценки, построенной регрессионной зависимости. Во множественном регрессионном анализе эту линию можно естественно представить только в виде гиперпространства (n-мерного пространства).
Наряду c прочими свойствами стандартная ошибка оценки представляет собой показатель точности подбора линии выборочной регрессии, к выборочным значениям исходных статистических данных Y. Так как по мере приближения линии выборочной регрессии к истинной линии регрессии, то и как следствие квадрат ошибки, представленной в векторной форме - e'e, будет стремиться к нулю.
Напомним, что в векторной форме ошибка e или степень невязки регрессионной кривой, которую можно представить в виде векторного произведения - bX, относительно исходным статистическим выборочным данным вектора зависимой переменной Y можно представить в виде e=Y-bX. Вполне естественно, что в этом случае несмещенная дисперсия будет равна DX=e'e/(n-k-1), где (n-k-1) степень свободы, а стандартная ошибка оценки эконометрической модели это корень квадратный от SX=DX^0.5, как в одномерной статистике
В нашем исследовании DX равно:
Учитывая, что дисперсия генеральной совокупности DX обычно неизвестна и традиционно оценивается по выборке, поэтому стандартные ошибки Sb коэффициентов bi можно вычислить с помощью ковариационной матрицы (X'X)^(-1) векторной оценки bi. Матрица стандартных ошибок будет равна Sb=DX*(X'X)^(-1)
Квадратные корни из элементов главной диагонали матрицы Sb обычно и называют стандартными ошибками Sbi коэффициентов bi. В нашем случае они будут равны:
Обсудив оценивание ошибок ковариационной матрицы вектора b, и получив коэффициенты bi (их математическое ожидание), обратимся теперь к выборочному распределению.
Ранее отмечалось, что вектор b=(X'X)^(-1)*X'Y.
Так как (X'X)^(-1)*X' предполагается постоянной, вектор b представляет собой линейную функцию вектора Y. И поскольку мы предполагаем, что вектор Y имеет нормальное распределение, то и b будет иметь нормальное распределение. Этот вывод - следствие того, что линейные функции нормально распределенных переменных также распределены нормально. Однако, так как обычно ковариационная матрица b неизвестна и предполагается, что b подчиняется распределению Стьюдента, которым мы в дальнейшем и будем пользоваться для проверки гипотез.
Где bi-некоторый коэффициент регрессии генеральной совокупности, Для проверки данной нулевой гипотезы Н0: bi=b0i,
Где bi-некоторый коэффициент регрессии генеральной совокупности, a b0i-предполагаемое значение этого коэффициента в генеральной совокупности. Воспользуемся статистикой:
Дисперсия Sbii представляет собой i-й диагональный элемент матрицы Sb (ошибок bi), а квадратный корень из Sbii - это стандартная ошибка коэффициента bi. Эту нулевую гипотезу можно проверить по отношению к некоторой односторонней или двусторонней альтернативной гипотезе. Статистика t=(bi-b0i)/sqr(Sbii) подчиняется t-распределению c v=n-К-1 степенями свободы.
Значительный интерес представляет проверка гипотезы о том, что коэффициент bi, в т.ч. и b0, равен нулю в генеральной совокупности. Просто нами в процессе формирования экономических априорных предположений была допущена грубая ошибка, в результате которой в эконометрическую модель была включена незначимая предикторная переменная Xi реально не влияющая на исследуемые экономические процессы. В результате если благодаря данному критерию установлено, что угловой коэффициент bi не отличается существенно от нуля, то соответствующая этому коэффициенту переменная Xi не вносит статистически значимого вклада в уравнение регрессии, т.к. реально не влияет на исследуемые в модели экономические процессы. Иногда, в ряде случаев, нас интересует проверка гипотезы о том, что угловой коэффициент равен 'некоторой константе', отличной от нуля. Данная гипотеза также опирается на предположении, что эта 'некоторая константа' соответствует средней величине коэффициента bi при переменной Xi в генеральной совокупности.
Поэтому в общем случае, и в первую очередь в ситуациях, характеризующихся мультиколлинеарностью, т.е. высокой взаимозависимостью предсказывающих переменных Xi, более эффективен метод, основанный на последовательном пересчете и сравнении значений множественного коэффициента корреляции. Он рассчитывается для различных вариантов комбинаций предсказывающих переменных, включаемых в модель. Он взят в основу большинства алгоритмов так называемой пошаговой регрессии.
|
5 |
G1_1 |
G1_2 |
G1_3 |
G1_4 |
G1_5 |
---|---|---|---|---|---|---|
|
G1 |
Farms |
Forestry |
Mining |
Utilities |
Construction |
1998 |
37638 |
923 |
27774 |
775 |
6489 |
1677 |
1999 |
41284 |
843 |
30629 |
557 |
7797 |
1458 |
2000 |
36442 |
568 |
23566 |
492 |
10438 |
1378 |
2001 |
38261 |
639 |
22938 |
404 |
13101 |
1179 |
2002 |
36063 |
629 |
23802 |
742 |
9498 |
1392 |
2003 |
35986 |
578 |
22600 |
918 |
10402 |
1488 |
2004 |
39079 |
612 |
26626 |
967 |
9426 |
1448 |
2005 |
44011 |
592 |
29916 |
864 |
11082 |
1557 |
2006 |
42109 |
254 |
28214 |
993 |
10875 |
1773 |
2007 |
37740 |
373 |
23000 |
1019 |
11319 |
2029 |
2008 |
37616 |
416 |
20996 |
1093 |
12979 |
2132 |
2009 |
30210 |
361 |
18227 |
1133 |
8662 |
1827 |
2010 |
29962 |
496 |
17805 |
1003 |
8706 |
1952 |
Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.
Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X5 по следующим показателям:
Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.
Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.
Функция Y:
Mx=37415; ErrMX=1122; Sx=4046; Var=0.108; Me=37638; Ex=0.394; As=-0.507; Min=29962; Max=44011; Inter=14049; Sum=486401;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X1:
Mx=560.31; ErrMX=51.89; Sx=187.09; Var=0.334; Me=578.00; Ex=0.104; As=0.373; Min=254.00; Max=923.00; Inter=669.00; Sum=7284;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X2:
Mx=24315; ErrMX=1137; Sx=4099; Var=0.169; Me=23566; Ex=-0.858; As=-0.0115; Min=17805; Max=30629; Inter=12824; Sum=316093;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X3:
Mx=843.08; ErrMX=65.03; Sx=234.46; Var=0.278; Me=918.00; Ex=-0.618; As=-0.745; Min=404.00; Max=1133; Inter=729.00; Sum=10960;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X4:
Mx=10060; ErrMX=529.28; Sx=1908; Var=0.190; Me=10402; Ex=-0.200; As=-0.0853; Min=6489; Max=13101; Inter=6612; Sum=130774;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X5:
Mx=1638; ErrMX=79.56; Sx=286.84; Var=0.175; Me=1557; Ex=-0.875; As=0.316; Min=1179; Max=2132; Inter=953.00; Sum=21290;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
G1 |
G1_1 |
G1_2 |
G1_3 |
G1_4 |
G1_5 |
---|---|---|---|---|---|
|
Farms |
Forestry |
Mining |
Utilities |
Construction |
1998 |
2.5% |
73.8% |
2.1% |
17.2% |
4.5% |
1999 |
2.0% |
74.2% |
1.3% |
18.9% |
3.5% |
2000 |
1.6% |
64.7% |
1.4% |
28.6% |
3.8% |
2001 |
1.7% |
60.0% |
1.1% |
34.2% |
3.1% |
2002 |
1.7% |
66.0% |
2.1% |
26.3% |
3.9% |
2003 |
1.6% |
62.8% |
2.6% |
28.9% |
4.1% |
2004 |
1.6% |
68.1% |
2.5% |
24.1% |
3.7% |
2005 |
1.3% |
68.0% |
2.0% |
25.2% |
3.5% |
2006 |
0.6% |
67.0% |
2.4% |
25.8% |
4.2% |
2007 |
1.0% |
60.9% |
2.7% |
30.0% |
5.4% |
2008 |
1.1% |
55.8% |
2.9% |
34.5% |
5.7% |
2009 |
1.2% |
60.3% |
3.8% |
28.7% |
6.0% |
2010 |
1.7% |
59.4% |
3.3% |
29.1% |
6.5% |
MX |
0.015 |
0.647 |
0.023 |
0.270 |
0.045 |
Beta |
Sb |
Tstudent |
Tкрит |
R2 |
SeY |
Fнабл |
Fкрит |
ST |
SE |
---|---|---|---|---|---|---|---|---|---|
1.830 |
0.331 |
1.828 |
1.895 |
0.997 |
295.2 |
449.3825 |
3.865969 |
196466285 |
610167.4 |
0.027 |
0.011 |
2.558 |
|
|
|
|
|
|
|
0.657 |
0.015 |
44.618 |
|
|
|
|
|
|
|
-0.004 |
0.013 |
0.338 |
|
|
|
|
|
|
|
0.259 |
0.015 |
17.167 |
|
|
|
|
|
|
|
0.105 |
0.024 |
4.436 |
|
|
|
|
|
|
|
Determinant |
0.000 |
|
|
|
|
|
|
|
|
1.000 |
0.198 |
0.896 |
-0.285 |
0.255 |
-0.285 |
|
|
|
|
0.198 |
1.000 |
0.469 |
-0.616 |
-0.529 |
-0.544 |
|
|
|
|
0.896 |
0.469 |
1.000 |
-0.358 |
-0.192 |
-0.390 |
|
|
|
|
-0.285 |
-0.616 |
-0.358 |
1.000 |
-0.019 |
0.802 |
|
|
|
|
0.255 |
-0.529 |
-0.192 |
-0.019 |
1.000 |
0.039 |
|
|
|
|
Проведенный корреляционный анализ массива Y и X1... Х5 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 2. Эта переменная обозначена как: Farms. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х5 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.
Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х5).
Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=295.24.
Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х5.
Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.
В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 0.997. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.995. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.
Применим F-статистику, чтобы определить, является ли этот результат случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.
Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.
Используя односторонний тест. F-наблюдаемое равно 449.38, что больше, чем F-критическое значение 3.866. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.
Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.
Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 1.895 (Критерий Student-а).
На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило.
Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, которая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.
Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.
Ниже приводятся полученные результаты:
|
8 |
G2_1 |
G2_2 |
G2_3 |
G2_4 |
G2_5 |
G2_6 |
G2_7 |
G2_8 |
---|---|---|---|---|---|---|---|---|---|
|
G2 |
Wood products |
Nonmetallic mineral products |
Primary metals |
Fabricated metal products |
Machinery |
Computer and electronic products |
Electrical equipment, appliances, and components |
Motor vehicles&Other transportation |
1998 |
38082 |
24492 |
1342 |
483 |
4347 |
1814 |
3498 |
1270 |
836 |
1999 |
39730 |
26673 |
1420 |
394 |
4205 |
1722 |
3221 |
1182 |
913 |
2000 |
38444 |
25660 |
1248 |
414 |
4290 |
1606 |
3369 |
965 |
892 |
2001 |
33970 |
22940 |
1080 |
331 |
4032 |
1658 |
2385 |
742 |
802 |
2002 |
33465 |
22327 |
1123 |
332 |
4283 |
1421 |
2398 |
752 |
829 |
2003 |
33378 |
22896 |
1073 |
313 |
4032 |
1367 |
2365 |
679 |
653 |
2004 |
39574 |
27682 |
1231 |
466 |
4333 |
1534 |
2647 |
881 |
800 |
2005 |
41842 |
28612 |
1327 |
485 |
4730 |
1770 |
2984 |
1040 |
894 |
2006 |
42200 |
28396 |
1432 |
571 |
5097 |
1774 |
2917 |
1168 |
845 |
2007 |
38654 |
24506 |
1344 |
503 |
5708 |
1950 |
2279 |
1316 |
1048 |
2008 |
34339 |
20196 |
1193 |
565 |
5995 |
1984 |
2522 |
1167 |
717 |
2009 |
23039 |
13711 |
695 |
343 |
3744 |
1447 |
1948 |
734 |
417 |
2010 |
25299 |
14319 |
713 |
429 |
4029 |
1664 |
2882 |
753 |
510 |
Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.
Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X8 по следующим показателям:
Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.
Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.
Функция Y:
Mx=35540; ErrMX=1634; Sx=5892; Var=0.166; Me=38082; Ex=0.626; As=-1.106; Min=23039; Max=42200; Inter=19161; Sum=462016;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X1:
Mx=23262; ErrMX=1332; Sx=4802; Var=0.206; Me=24492; Ex=0.450; As=-1.054; Min=13711; Max=28612; Inter=14901; Sum=302410;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X2:
Mx=1171; ErrMX=66.03; Sx=238.08; Var=0.203; Me=1231; Ex=0.634; As=-1.150; Min=695.00; Max=1432; Inter=737.00; Sum=15221;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X3:
Mx=433.00; ErrMX=24.37; Sx=87.87; Var=0.203; Me=429.00; Ex=-1.169; As=0.139; Min=313.00; Max=571.00; Inter=258.00; Sum=5629;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X4:
Mx=4525; ErrMX=188.73; Sx=680.47; Var=0.150; Me=4290; Ex=0.772; As=1.287; Min=3744; Max=5995; Inter=2251; Sum=58825;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X5:
Mx=1670; ErrMX=53.56; Sx=193.12; Var=0.116; Me=1664; Ex=-0.793; As=0.0128; Min=1367; Max=1984; Inter=617.00; Sum=21711;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X6:
Mx=2724; ErrMX=128.82; Sx=464.48; Var=0.171; Me=2647; Ex=-0.835; As=0.194; Min=1948; Max=3498; Inter=1550; Sum=35415;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X7:
Mx=973.00; ErrMX=63.67; Sx=229.56; Var=0.236; Me=965.00; Ex=-1.703; As=0.139; Min=679.00; Max=1316; Inter=637.00; Sum=12649;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X8:
Mx=781.23; ErrMX=47.40; Sx=170.89; Var=0.219; Me=829.00; Ex=0.762; As=-0.908; Min=417.00; Max=1048; Inter=631.00; Sum=10156;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
G2 |
G2_1 |
G2_2 |
G2_3 |
G2_4 |
G2_5 |
G2_6 |
G2_7 |
G2_8 |
---|---|---|---|---|---|---|---|---|
|
Wood products |
Nonmetallic mineral products |
Primary metals |
Fabricated metal products |
Machinery |
Computer and electronic products |
Electrical equipment, appliances, and components |
Motor vehicles&Other transportation |
1998 |
64.3% |
3.5% |
1.3% |
11.4% |
4.8% |
9.2% |
3.3% |
2.2% |
1999 |
67.1% |
3.6% |
1.0% |
10.6% |
4.3% |
8.1% |
3.0% |
2.3% |
2000 |
66.7% |
3.2% |
1.1% |
11.2% |
4.2% |
8.8% |
2.5% |
2.3% |
2001 |
67.5% |
3.2% |
1.0% |
11.9% |
4.9% |
7.0% |
2.2% |
2.4% |
2002 |
66.7% |
3.4% |
1.0% |
12.8% |
4.2% |
7.2% |
2.2% |
2.5% |
2003 |
68.6% |
3.2% |
0.9% |
12.1% |
4.1% |
7.1% |
2.0% |
2.0% |
2004 |
69.9% |
3.1% |
1.2% |
10.9% |
3.9% |
6.7% |
2.2% |
2.0% |
2005 |
68.4% |
3.2% |
1.2% |
11.3% |
4.2% |
7.1% |
2.5% |
2.1% |
2006 |
67.3% |
3.4% |
1.4% |
12.1% |
4.2% |
6.9% |
2.8% |
2.0% |
2007 |
63.4% |
3.5% |
1.3% |
14.8% |
5.0% |
5.9% |
3.4% |
2.7% |
2008 |
58.8% |
3.5% |
1.6% |
17.5% |
5.8% |
7.3% |
3.4% |
2.1% |
2009 |
59.5% |
3.0% |
1.5% |
16.3% |
6.3% |
8.5% |
3.2% |
1.8% |
2010 |
56.6% |
2.8% |
1.7% |
15.9% |
6.6% |
11.4% |
3.0% |
2.0% |
MX |
0.650 |
0.033 |
0.012 |
0.130 |
0.048 |
0.078 |
0.027 |
0.022 |
Beta |
Sb |
Tstudent |
Tкрит |
R2 |
SeY |
Fнабл |
Fкрит |
ST |
SE |
---|---|---|---|---|---|---|---|---|---|
3.082 |
0.325 |
3.459 |
2.132 |
1.000 |
126.8 |
3238 |
6.00 |
416532287 |
64310 |
0.650 |
0.037 |
17.559 |
|
|
|
|
|
|
|
0.007 |
0.045 |
0.153 |
|
|
|
|
|
|
|
0.014 |
0.024 |
0.600 |
|
|
|
|
|
|
|
0.150 |
0.034 |
4.482 |
|
|
|
|
|
|
|
0.053 |
0.023 |
2.317 |
|
|
|
|
|
|
|
0.090 |
0.013 |
6.920 |
|
|
|
|
|
|
|
0.026 |
0.021 |
1.210 |
|
|
|
|
|
|
|
0.021 |
0.015 |
1.402 |
|
|
|
|
|
|
|
Determinant |
1.71E-21 |
|
|
|
|
|
|
|
|
1.000 |
0.978 |
0.967 |
0.506 |
0.436 |
0.418 |
0.532 |
0.646 |
0.878 |
|
0.978 |
1.000 |
0.917 |
0.348 |
0.274 |
0.232 |
0.480 |
0.490 |
0.835 |
|
0.967 |
0.917 |
1.000 |
0.514 |
0.505 |
0.497 |
0.519 |
0.757 |
0.895 |
|
0.506 |
0.348 |
0.514 |
1.000 |
0.800 |
0.812 |
0.340 |
0.774 |
0.351 |
|
0.436 |
0.274 |
0.505 |
0.800 |
1.000 |
0.802 |
-0.038 |
0.706 |
0.473 |
|
0.418 |
0.232 |
0.497 |
0.812 |
0.802 |
1.000 |
0.307 |
0.850 |
0.472 |
|
0.532 |
0.480 |
0.519 |
0.340 |
-0.038 |
0.307 |
1.000 |
0.473 |
0.396 |
|
0.646 |
0.490 |
0.757 |
0.774 |
0.706 |
0.850 |
0.473 |
1.000 |
0.657 |
|
0.878 |
0.835 |
0.895 |
0.351 |
0.473 |
0.472 |
0.396 |
0.657 |
1.000 |
|
Проведенный корреляционный анализ массива Y и X1... Х8 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 3. Эта переменная обозначена как: Nonmetallic mineral products. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х8 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.
Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х8).
Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=126.80.
Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х8.
Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.
В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 1.000. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=1.000. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.
Применим F-статистику, чтобы определить, является ли этот результат случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.
Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.
Используя односторонний тест. F-наблюдаемое равно 3238, что больше , чем F-критическое значение 5.999. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.
Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.
Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 2.132 (Критерий Student-а).
На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.
Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.
Ниже приводятся полученные результаты:
|
7 |
G3_1 |
G3_2 |
G3_3 |
G3_4 |
G3_5 |
G3_6 |
---|---|---|---|---|---|---|---|
|
G3 |
Furniture & Miscellaneous |
Food and beverage and tobacco products |
Textile mills and textile product mills |
Paper & Printing |
Petroleum and coal products |
Chemical products |
1998 |
57027 |
1073 |
730 |
2833 |
36050 |
837 |
12454 |
1999 |
55342 |
1018 |
665 |
2669 |
35749 |
1068 |
11292 |
2000 |
57924 |
467 |
638 |
2632 |
38124 |
1669 |
11546 |
2001 |
54022 |
261 |
664 |
2339 |
35323 |
1390 |
11275 |
2002 |
52985 |
291 |
726 |
2278 |
33565 |
1647 |
11458 |
2003 |
53188 |
252 |
848 |
2012 |
33103 |
2075 |
11936 |
2004 |
55483 |
262 |
772 |
2238 |
33677 |
3077 |
12503 |
2005 |
60182 |
291 |
766 |
2522 |
34835 |
4555 |
13906 |
2006 |
61048 |
295 |
698 |
2550 |
36224 |
4440 |
13469 |
2007 |
66688 |
267 |
805 |
3093 |
38133 |
4899 |
15742 |
2008 |
71647 |
200 |
950 |
3374 |
39062 |
6057 |
18219 |
2009 |
55133 |
189 |
801 |
3092 |
32570 |
2901 |
12789 |
2010 |
64124 |
92 |
801 |
3697 |
36045 |
4855 |
15637 |
Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.
Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X7 по следующим показателям:
Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.
Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.
Функция Y:
Mx=58830; ErrMX=1583; Sx=5708; Var=0.0970; Me=57027; Ex=0.591; As=1.125; Min=52985; Max=71647; Inter=18662; Sum=764793;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X1:
Mx=381.38; ErrMX=84.99; Sx=306.45; Var=0.804; Me=267.00; Ex=2.383; As=1.858; Min=92.00; Max=1073; Inter=981.00; Sum=4958;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X2:
Mx=758.77; ErrMX=23.81; Sx=85.84; Var=0.113; Me=766.00; Ex=0.639; As=0.660; Min=638.00; Max=950.00; Inter=312.00; Sum=9864;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X3:
Mx=2718; ErrMX=134.57; Sx=485.20; Var=0.179; Me=2632; Ex=-0.180; As=0.617; Min=2012; Max=3697; Inter=1685; Sum=35329;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X4:
Mx=35574; ErrMX=563.26; Sx=2031; Var=0.0571; Me=35749; Ex=-0.833; As=0.220; Min=32570; Max=39062; Inter=6492; Sum=462460;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X5:
Mx=3036; ErrMX=482.67; Sx=1740; Var=0.573; Me=2901; Ex=-1.383; As=0.326; Min=837.00; Max=6057; Inter=5220; Sum=39470;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X6:
Mx=13248; ErrMX=588.66; Sx=2122; Var=0.160; Me=12503; Ex=1.061; As=1.269; Min=11275; Max=18219; Inter=6944; Sum=172226;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X7:
Mx=3114; ErrMX=94.06; Sx=339.15; Var=0.109; Me=2997; Ex=0.292; As=1.174; Min=2770; Max=3785; Inter=1015; Sum=40486;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
G3 |
G3_1 |
G3_2 |
G3_3 |
G3_4 |
G3_5 |
G3_6 |
G3_7 |
---|---|---|---|---|---|---|---|
|
Furniture & Miscellaneous |
Food and beverage and tobacco products |
Textile mills and textile product mills |
Paper & Printing |
Petroleum and coal products |
Chemical products |
Plastics and rubber products |
1998 |
1.9% |
1.3% |
5.0% |
63.2% |
1.5% |
21.8% |
5.3% |
1999 |
1.8% |
1.2% |
4.8% |
64.6% |
1.9% |
20.4% |
5.2% |
2000 |
0.8% |
1.1% |
4.5% |
65.8% |
2.9% |
19.9% |
4.9% |
2001 |
0.5% |
1.2% |
4.3% |
65.4% |
2.6% |
20.9% |
5.1% |
2002 |
0.5% |
1.4% |
4.3% |
63.3% |
3.1% |
21.6% |
5.7% |
2003 |
0.5% |
1.6% |
3.8% |
62.2% |
3.9% |
22.4% |
5.6% |
2004 |
0.5% |
1.4% |
4.0% |
60.7% |
5.5% |
22.5% |
5.3% |
2005 |
0.5% |
1.3% |
4.2% |
57.9% |
7.6% |
23.1% |
5.5% |
2006 |
0.5% |
1.1% |
4.2% |
59.3% |
7.3% |
22.1% |
5.5% |
2007 |
0.4% |
1.2% |
4.6% |
57.2% |
7.3% |
23.6% |
5.6% |
2008 |
0.3% |
1.3% |
4.7% |
54.5% |
8.5% |
25.4% |
5.3% |
2009 |
0.3% |
1.5% |
5.6% |
59.1% |
5.3% |
23.2% |
5.1% |
2010 |
0.1% |
1.2% |
5.8% |
56.2% |
7.6% |
24.4% |
4.7% |
MX |
0.007 |
0.013 |
0.046 |
0.607 |
0.050 |
0.224 |
0.053 |
Beta |
Sb |
Tstudent |
Tкрит |
R2 |
SeY |
Fнабл |
Fкрит |
ST |
SE |
---|---|---|---|---|---|---|---|---|---|
2.892 |
0.257 |
4.135 |
2.015 |
1.000 |
160.77 |
2160.37 |
4.82 |
391018576 |
129240 |
0.012 |
0.003 |
4.269 |
|
|
|
|
|
|
|
-0.043 |
0.023 |
1.898 |
|
|
|
|
|
|
|
0.030 |
0.013 |
2.280 |
|
|
|
|
|
|
|
0.565 |
0.033 |
17.286 |
|
|
|
|
|
|
|
0.029 |
0.004 |
6.559 |
|
|
|
|
|
|
|
0.392 |
0.043 |
9.031 |
|
|
|
|
|
|
|
0.004 |
0.026 |
0.171 |
|
|
|
|
|
|
|
Determinant |
2.35E-20 |
|
|
|
|
|
|
|
|
1.000 |
-0.270 |
0.569 |
0.738 |
0.779 |
0.856 |
0.954 |
0.851 |
|
|
-0.270 |
1.000 |
-0.457 |
-0.118 |
0.126 |
-0.620 |
-0.404 |
-0.212 |
|
|
0.569 |
-0.457 |
1.000 |
0.403 |
0.067 |
0.664 |
0.764 |
0.574 |
|
|
0.738 |
-0.118 |
0.403 |
1.000 |
0.514 |
0.566 |
0.742 |
0.377 |
|
|
0.779 |
0.126 |
0.067 |
0.514 |
1.000 |
0.400 |
0.572 |
0.618 |
|
|
0.856 |
-0.620 |
0.664 |
0.566 |
0.400 |
1.000 |
0.908 |
0.776 |
|
|
0.954 |
-0.404 |
0.764 |
0.742 |
0.572 |
0.908 |
1.000 |
0.822 |
|
|
0.851 |
-0.212 |
0.574 |
0.377 |
0.618 |
0.776 |
0.822 |
1.000 |
|
|
Проведенный корреляционный анализ массива Y и X1... Х7 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 7. Эта переменная обозначена как: Chemical products. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х7 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.
Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х7).
Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=160.77.
Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х7.
Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.
В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 1.000. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.999. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.
Применим F-статистику, чтобы определить, является ли этот результат случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.
Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.
Используя односторонний тест. F-наблюдаемое равно 2160, что больше , чем F-критическое значение 4.818. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.
Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.
Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 2.015 (Критерий Student-а).
На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.
Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.
Ниже приводятся полученные результаты:
|
7 |
G4_1 |
G4_2 |
G4_3 |
G4_4 |
G4_5 |
G4_6 |
G4_7 |
---|---|---|---|---|---|---|---|---|
|
|
42 |
44RT |
481 |
482 |
484 |
487OS |
493 |
|
G4 |
Wholesale trade |
Retail trade |
Air transportation |
Rail & Water transportation |
Truck transportation |
Transit & Other & Pipeline transportation and support activities |
Warehousing and storage |
1998 |
23938 |
14873 |
414 |
640 |
2322 |
4649 |
774 |
266 |
1999 |
24808 |
15687 |
316 |
601 |
2167 |
5037 |
717 |
283 |
2000 |
24559 |
15374 |
277 |
616 |
2107 |
5059 |
767 |
359 |
2001 |
23501 |
14431 |
187 |
512 |
2054 |
5069 |
805 |
443 |
2002 |
25074 |
15644 |
195 |
474 |
2360 |
4992 |
918 |
491 |
2003 |
29492 |
15544 |
176 |
561 |
2526 |
9052 |
1105 |
528 |
2004 |
27954 |
17255 |
231 |
494 |
2656 |
5689 |
1138 |
491 |
2005 |
29873 |
18223 |
225 |
525 |
3030 |
6120 |
1229 |
521 |
2006 |
30287 |
18036 |
207 |
568 |
3220 |
6414 |
1271 |
571 |
2007 |
29405 |
17603 |
165 |
542 |
3158 |
6287 |
1090 |
560 |
2008 |
29077 |
17731 |
131 |
529 |
3239 |
5918 |
969 |
560 |
2009 |
22157 |
13355 |
70 |
343 |
2485 |
4290 |
1056 |
558 |
2010 |
24865 |
15449 |
80 |
340 |
2888 |
4553 |
1098 |
457 |
Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.
Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X7 по следующим показателям:
Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.
Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.
Функция Y:
Mx=26538; ErrMX=790.99; Sx=2852; Var=0.107; Me=25074; Ex=-1.746; As=0.0340; Min=22157; Max=30287; Inter=8130; Sum=344990;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X1:
Mx=16093; ErrMX=423.45; Sx=1527; Var=0.0949; Me=15644; Ex=-0.991; As=-0.0405; Min=13355; Max=18223; Inter=4868; Sum=209205;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X2:
Mx=205.69; ErrMX=25.88; Sx=93.30; Var=0.454; Me=195.00; Ex=0.951; As=0.699; Min=70.00; Max=414.00; Inter=344.00; Sum=2674;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X3:
Mx=518.85; ErrMX=25.48; Sx=91.89; Var=0.177; Me=529.00; Ex=0.604; As=-0.991; Min=340.00; Max=640.00; Inter=300.00; Sum=6745;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X4:
Mx=2632; ErrMX=119.94; Sx=432.46; Var=0.164; Me=2526; Ex=-1.518; As=0.197; Min=2054; Max=3239; Inter=1185; Sum=34212;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X5:
Mx=5625; ErrMX=343.44; Sx=1238; Var=0.220; Me=5069; Ex=4.542; As=1.857; Min=4290; Max=9052; Inter=4762; Sum=73129;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X6:
Mx=995.15; ErrMX=51.12; Sx=184.31; Var=0.185; Me=1056; Ex=-1.301; As=-0.179; Min=717.00; Max=1271; Inter=554.00; Sum=12937;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X7:
Mx=468.31; ErrMX=28.95; Sx=104.39; Var=0.223; Me=491.00; Ex=-0.0537; As=-1.060; Min=266.00; Max=571.00; Inter=305.00; Sum=6088;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
G4 |
G4_1 |
G4_2 |
G4_3 |
G4_4 |
G4_5 |
G4_6 |
G4_7 |
---|---|---|---|---|---|---|---|
|
42 |
44RT |
481 |
482 |
484 |
487OS |
493 |
|
Wholesale trade |
Retail trade |
Air transportation |
Rail & Water transportation |
Truck transportation |
Transit & Other & Pipeline transportation and support activities |
Warehousing and storage |
1998 |
62.1% |
1.7% |
2.7% |
9.7% |
19.4% |
3.2% |
1.1% |
1999 |
63.2% |
1.3% |
2.4% |
8.7% |
20.3% |
2.9% |
1.1% |
2000 |
62.6% |
1.1% |
2.5% |
8.6% |
20.6% |
3.1% |
1.5% |
2001 |
61.4% |
0.8% |
2.2% |
8.7% |
21.6% |
3.4% |
1.9% |
2002 |
62.4% |
0.8% |
1.9% |
9.4% |
19.9% |
3.7% |
2.0% |
2003 |
52.7% |
0.6% |
1.9% |
8.6% |
30.7% |
3.7% |
1.8% |
2004 |
61.7% |
0.8% |
1.8% |
9.5% |
20.4% |
4.1% |
1.8% |
2005 |
61.0% |
0.8% |
1.8% |
10.1% |
20.5% |
4.1% |
1.7% |
2006 |
59.6% |
0.7% |
1.9% |
10.6% |
21.2% |
4.2% |
1.9% |
2007 |
59.9% |
0.6% |
1.8% |
10.7% |
21.4% |
3.7% |
1.9% |
2008 |
61.0% |
0.5% |
1.8% |
11.1% |
20.4% |
3.3% |
1.9% |
2009 |
60.3% |
0.3% |
1.5% |
11.2% |
19.4% |
4.8% |
2.5% |
2010 |
62.1% |
0.3% |
1.4% |
11.6% |
18.3% |
4.4% |
1.8% |
MX |
0.608 |
0.008 |
0.020 |
0.099 |
0.211 |
0.037 |
0.018 |
Beta |
Sb |
Tstudent |
Tкрит |
R2 |
SeY |
Fнабл |
Fкрит |
ST |
SE |
---|---|---|---|---|---|---|---|---|---|
4.383 |
0.105 |
14.070 |
2.015 |
1.000 |
50 |
5611 |
5 |
97602703 |
12424 |
0.548 |
0.019 |
29.358 |
|
|
|
|
|
|
|
0.007 |
0.007 |
0.909 |
|
|
|
|
|
|
|
0.003 |
0.016 |
0.193 |
|
|
|
|
|
|
|
0.117 |
0.015 |
7.768 |
|
|
|
|
|
|
|
0.256 |
0.007 |
35.494 |
|
|
|
|
|
|
|
0.036 |
0.013 |
2.731 |
|
|
|
|
|
|
|
-0.005 |
0.007 |
0.701 |
|
|
|
|
|
|
|
Determinant |
1.01E-19 |
|
|
|
|
|
|
|
|
1.000 |
0.899 |
-0.089 |
0.284 |
0.765 |
0.764 |
0.683 |
0.559 |
|
|
0.899 |
1.000 |
0.026 |
0.288 |
0.774 |
0.425 |
0.564 |
0.412 |
|
|
-0.089 |
0.026 |
1.000 |
0.824 |
-0.426 |
-0.082 |
-0.516 |
-0.783 |
|
|
0.284 |
0.288 |
0.824 |
1.000 |
-0.180 |
0.322 |
-0.384 |
-0.474 |
|
|
0.765 |
0.774 |
-0.426 |
-0.180 |
1.000 |
0.329 |
0.781 |
0.698 |
|
|
0.764 |
0.425 |
-0.082 |
0.322 |
0.329 |
1.000 |
0.455 |
0.426 |
|
|
0.683 |
0.564 |
-0.516 |
-0.384 |
0.781 |
0.455 |
1.000 |
0.803 |
|
|
0.559 |
0.412 |
-0.783 |
-0.474 |
0.698 |
0.426 |
0.803 |
1.000 |
|
|
Проведенный корреляционный анализ массива Y и X1... Х7 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 7. Эта переменная обозначена как: Transit&Other&Pipeline transportation and support activities. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х7 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.
Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х7).
Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=49.85.
Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х7.
Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.
В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 1.000. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=1.000. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.
Применим F-статистику, чтобы определить, является ли этот результат случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.
Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.
Используя односторонний тест. F-наблюдаемое равно 5611, что больше , чем F-критическое значение 4.818. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.
Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.
Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 2.015 (Критерий Student-а).
На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.
Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.
Ниже приводятся полученные результаты:
|
5 |
G5_1 |
G5_2 |
G5_3 |
G5_4 |
G5_5 |
---|---|---|---|---|---|---|
|
|
513 |
514 |
521CI |
523 |
531 |
|
G5 |
Broadcasting (except internet) and telecommunications |
Other information services |
Federal Reserve banks, credit intermediation, and related activities |
Securities & Insurance, commodity contracts, and investments |
Real estate |
1998 |
3578 |
663 |
630 |
949 |
387 |
949 |
1999 |
3958 |
645 |
636 |
1132 |
463 |
1082 |
2000 |
4443 |
664 |
716 |
1111 |
435 |
1517 |
2001 |
4714 |
678 |
800 |
1102 |
393 |
1741 |
2002 |
5022 |
681 |
821 |
1252 |
387 |
1881 |
2003 |
4747 |
669 |
719 |
1218 |
352 |
1789 |
2004 |
4888 |
642 |
645 |
1181 |
394 |
2026 |
2005 |
5501 |
713 |
689 |
1294 |
467 |
2338 |
2006 |
5595 |
740 |
741 |
1330 |
497 |
2287 |
2007 |
5225 |
679 |
677 |
1099 |
479 |
2291 |
2008 |
4421 |
611 |
632 |
829 |
257 |
2092 |
2009 |
4138 |
497 |
536 |
1006 |
305 |
1794 |
2010 |
6773 |
508 |
572 |
853 |
269 |
4571 |
Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.
Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X5 по следующим показателям:
Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.
Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.
Функция Y:
Mx=4846; ErrMX=228.54; Sx=824.00; Var=0.170; Me=4747; Ex=1.402; As=0.822; Min=3578; Max=6773; Inter=3195; Sum=63003;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X1:
Mx=645.38; ErrMX=19.66; Sx=70.88; Var=0.110; Me=664.00; Ex=1.252; As=-1.273; Min=497.00; Max=740.00; Inter=243.00; Sum=8390;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X2:
Mx=678.00; ErrMX=22.82; Sx=82.27; Var=0.121; Me=677.00; Ex=-0.294; As=0.131; Min=536.00; Max=821.00; Inter=285.00; Sum=8814;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X3:
Mx=1104; ErrMX=43.93; Sx=158.41; Var=0.143; Me=1111; Ex=-0.648; As=-0.445; Min=829.00; Max=1330; Inter=501.00; Sum=14356;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X4:
Mx=391.15; ErrMX=21.73; Sx=78.36; Var=0.200; Me=393.00; Ex=-0.809; As=-0.447; Min=257.00; Max=497.00; Inter=240.00; Sum=5085;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X5:
Mx=2028; ErrMX=243.37; Sx=877.47; Var=0.433; Me=1881; Ex=6.330; As=2.075; Min=949.00; Max=4571; Inter=3622; Sum=26358;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
G5 |
G5_1 |
G5_2 |
G5_3 |
G5_4 |
G5_5 |
---|---|---|---|---|---|
|
513 |
514 |
521CI |
523 |
531 |
|
Broadcasting (except internet) and telecommunications |
Other information services |
Federal Reserve banks, credit intermediation, and related activities |
Securities & Insurance, commodity contracts, and investments |
Real estate |
1998 |
18.5% |
17.6% |
26.5% |
10.8% |
26.5% |
1999 |
16.3% |
16.1% |
28.6% |
11.7% |
27.3% |
2000 |
14.9% |
16.1% |
25.0% |
9.8% |
34.1% |
2001 |
14.4% |
17.0% |
23.4% |
8.3% |
36.9% |
2002 |
13.6% |
16.3% |
24.9% |
7.7% |
37.5% |
2003 |
14.1% |
15.1% |
25.7% |
7.4% |
37.7% |
2004 |
13.1% |
13.2% |
24.2% |
8.1% |
41.4% |
2005 |
13.0% |
12.5% |
23.5% |
8.5% |
42.5% |
2006 |
13.2% |
13.2% |
23.8% |
8.9% |
40.9% |
2007 |
13.0% |
13.0% |
21.0% |
9.2% |
43.8% |
2008 |
13.8% |
14.3% |
18.8% |
5.8% |
47.3% |
2009 |
12.0% |
13.0% |
24.3% |
7.4% |
43.4% |
2010 |
7.5% |
8.4% |
12.6% |
4.0% |
67.5% |
MX |
0.137 |
0.143 |
0.232 |
0.083 |
0.405 |
Beta |
Sb |
Tstudent |
Tкрит |
R2 |
SeY |
Fнабл |
Fкрит |
ST |
SE |
---|---|---|---|---|---|---|---|---|---|
16.09 |
0.79 |
3.53 |
1.89 |
0.97 |
191.5 |
43.0 |
3.9 |
8147625 |
256835 |
-0.02 |
0.23 |
0.08 |
|
|
|
|
|
|
|
0.18 |
0.17 |
1.05 |
|
|
|
|
|
|
|
0.02 |
0.14 |
0.17 |
|
|
|
|
|
|
|
0.19 |
0.11 |
1.70 |
|
|
|
|
|
|
|
0.45 |
0.03 |
14.15 |
|
|
|
|
|
|
|
Determinant |
-0 |
|
|
|
|
|
|
|
|
1.00 |
-0.07 |
0.07 |
0.12 |
-0.04 |
0.92 |
|
|
|
|
-0.07 |
1.00 |
0.77 |
0.72 |
0.78 |
-0.42 |
|
|
|
|
0.07 |
0.77 |
1.00 |
0.63 |
0.46 |
-0.25 |
|
|
|
|
0.12 |
0.72 |
0.63 |
1.00 |
0.75 |
-0.26 |
|
|
|
|
-0.04 |
0.78 |
0.46 |
0.75 |
1.00 |
-0.37 |
|
|
|
|
0.92 |
-0.42 |
-0.25 |
-0.26 |
-0.37 |
1.00 |
|
|
|
|
Проведенный корреляционный анализ массива Y и X1... Х5 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 2. Эта переменная обозначена как: Broadcasting (except internet) and telecommunications. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х5 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.
Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х5).
Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=191.55.
Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х5.
Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.
В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 0.968. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.946. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.
Применим F-статистику, чтобы определить, является ли этот результат случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.
Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.
Используя односторонний тест. F-наблюдаемое равно 43.01, что больше , чем F-критическое значение 3.866. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.
Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.
Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 1.895 (Критерий Student-а).
На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.
Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.
Ниже приводятся полученные результаты:
|
8 |
G6_1 |
G6_2 |
G6_3 |
G6_4 |
G6_5 |
G6_6 |
G6_7 |
G6_8 |
---|---|---|---|---|---|---|---|---|---|
|
|
532RL |
5411 |
5415 |
5412OP |
55 |
561 |
562 |
61 |
|
G6 |
Rental and leasing services and lessors of intangible assets |
Legal services |
Computer systems design and related services |
Miscellaneous professional, scientific, and technical services |
Management of companies and enterprises |
Administrative and support services |
Waste management and remediation services |
Educational services |
1998 |
15092 |
1565 |
878 |
389 |
4850 |
4273 |
1970 |
329 |
838 |
1999 |
15371 |
1702 |
877 |
475 |
4975 |
4220 |
1964 |
345 |
813 |
2000 |
16178 |
1995 |
802 |
514 |
5213 |
4696 |
2079 |
347 |
532 |
2001 |
16370 |
2180 |
786 |
535 |
5122 |
4811 |
2112 |
359 |
465 |
2002 |
17361 |
2177 |
870 |
548 |
5612 |
5162 |
2247 |
386 |
359 |
2003 |
17639 |
2284 |
923 |
512 |
5417 |
5417 |
2325 |
407 |
354 |
2004 |
17785 |
2215 |
854 |
487 |
5531 |
5706 |
2129 |
368 |
495 |
2005 |
19424 |
2444 |
879 |
527 |
6127 |
6170 |
2324 |
405 |
548 |
2006 |
19988 |
2721 |
891 |
538 |
6336 |
6579 |
2502 |
266 |
155 |
2007 |
20345 |
2615 |
903 |
562 |
6590 |
6215 |
2892 |
355 |
213 |
2008 |
20410 |
2670 |
852 |
559 |
6268 |
6494 |
2801 |
664 |
102 |
2009 |
17198 |
2148 |
750 |
477 |
5274 |
5631 |
2302 |
466 |
150 |
2010 |
17185 |
2117 |
726 |
465 |
5086 |
5874 |
2113 |
606 |
198 |
Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.
Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X8 по следующим показателям:
Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.
Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.
Функция Y:
Mx=17719; ErrMX=503.18; Sx=1814; Var=0.102; Me=17361; Ex=-1.101; As=0.276; Min=15092; Max=20410; Inter=5318; Sum=230346;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X1:
Mx=2218; ErrMX=95.78; Sx=345.32; Var=0.156; Me=2180; Ex=-0.160; As=-0.321; Min=1565; Max=2721; Inter=1156; Sum=28833;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X2:
Mx=845.46; ErrMX=16.81; Sx=60.62; Var=0.0717; Me=870.00; Ex=-0.273; As=-0.883; Min=726.00; Max=923.00; Inter=197.00; Sum=10991;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X3:
Mx=506.77; ErrMX=13.31; Sx=47.99; Var=0.0947; Me=514.00; Ex=1.758; As=-1.185; Min=389.00; Max=562.00; Inter=173.00; Sum=6588;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X4:
Mx=5569; ErrMX=159.60; Sx=575.45; Var=0.103; Me=5417; Ex=-1.064; As=0.604; Min=4850; Max=6590; Inter=1740; Sum=72401;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X5:
Mx=5481; ErrMX=222.07; Sx=800.69; Var=0.146; Me=5631; Ex=-1.144; As=-0.271; Min=4220; Max=6579; Inter=2359; Sum=71248;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X6:
Mx=2289; ErrMX=80.66; Sx=290.83; Var=0.127; Me=2247; Ex=0.482; As=1.086; Min=1964; Max=2892; Inter=928.00; Sum=29760;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X7:
Mx=407.92; ErrMX=30.96; Sx=111.62; Var=0.274; Me=368.00; Ex=1.706; As=1.459; Min=266.00; Max=664.00; Inter=398.00; Sum=5303;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X8:
Mx=401.69; ErrMX=67.27; Sx=242.53; Var=0.604; Me=359.00; Ex=-0.561; As=0.592; Min=102.00; Max=838.00; Inter=736.00; Sum=5222;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
G6 |
G6_1 |
G6_2 |
G6_3 |
G6_4 |
G6_5 |
G6_6 |
G6_7 |
G6_8 |
---|---|---|---|---|---|---|---|---|
|
532RL |
5411 |
5415 |
5412OP |
55 |
561 |
562 |
61 |
|
Rental and leasing services and lessors of intangible assets |
Legal services |
Computer systems design and related services |
Miscellaneous professional, scientific, and technical services |
Management of companies and enterprises |
Administrative and support services |
Waste management and remediation services |
Educational services |
1998 |
10.4% |
5.8% |
2.6% |
32.1% |
28.3% |
13.1% |
2.2% |
5.6% |
1999 |
11.1% |
5.7% |
3.1% |
32.4% |
27.5% |
12.8% |
2.2% |
5.3% |
2000 |
12.3% |
5.0% |
3.2% |
32.2% |
29.0% |
12.9% |
2.1% |
3.3% |
2001 |
13.3% |
4.8% |
3.3% |
31.3% |
29.4% |
12.9% |
2.2% |
2.8% |
2002 |
12.5% |
5.0% |
3.2% |
32.3% |
29.7% |
12.9% |
2.2% |
2.1% |
2003 |
12.9% |
5.2% |
2.9% |
30.7% |
30.7% |
13.2% |
2.3% |
2.0% |
2004 |
12.5% |
4.8% |
2.7% |
31.1% |
32.1% |
12.0% |
2.1% |
2.8% |
2005 |
12.6% |
4.5% |
2.7% |
31.5% |
31.8% |
12.0% |
2.1% |
2.8% |
2006 |
13.6% |
4.5% |
2.7% |
31.7% |
32.9% |
12.5% |
1.3% |
0.8% |
2007 |
12.9% |
4.4% |
2.8% |
32.4% |
30.5% |
14.2% |
1.7% |
1.0% |
2008 |
13.1% |
4.2% |
2.7% |
30.7% |
31.8% |
13.7% |
3.3% |
0.5% |
2009 |
12.5% |
4.4% |
2.8% |
30.7% |
32.7% |
13.4% |
2.7% |
0.9% |
2010 |
12.3% |
4.2% |
2.7% |
29.6% |
34.2% |
12.3% |
3.5% |
1.2% |
MX |
0.125 |
0.048 |
0.029 |
0.314 |
0.308 |
0.129 |
0.023 |
0.024 |
Beta |
Sb |
Tstudent |
Tкрит |
R2 |
SeY |
Fнабл |
Fкрит |
ST |
SE |
---|---|---|---|---|---|---|---|---|---|
7.98 |
0.32 |
6.54 |
2.13 |
1.00 |
86.21 |
663.83 |
6.00 |
39496975 |
29726.9 |
0.20 |
0.10 |
2.13 |
|
|
|
|
|
|
|
0.06 |
0.04 |
1.48 |
|
|
|
|
|
|
|
-0.11 |
0.08 |
1.34 |
|
|
|
|
|
|
|
0.55 |
0.11 |
5.01 |
|
|
|
|
|
|
|
0.14 |
0.10 |
1.44 |
|
|
|
|
|
|
|
0.02 |
0.07 |
0.33 |
|
|
|
|
|
|
|
0.04 |
0.01 |
3.17 |
|
|
|
|
|
|
|
0.00 |
0.01 |
0.58 |
|
|
|
|
|
|
|
Determinant |
-0 |
|
|
|
|
|
|
|
|
1.00 |
0.96 |
0.32 |
0.71 |
0.97 |
0.94 |
0.91 |
0.25 |
-0.71 |
|
0.96 |
1.00 |
0.21 |
0.81 |
0.91 |
0.92 |
0.86 |
0.21 |
-0.79 |
|
0.32 |
0.21 |
1.00 |
0.23 |
0.46 |
0.08 |
0.32 |
-0.46 |
0.24 |
|
0.71 |
0.81 |
0.23 |
1.00 |
0.75 |
0.57 |
0.70 |
0.08 |
-0.58 |
|
0.97 |
0.91 |
0.46 |
0.75 |
1.00 |
0.84 |
0.90 |
0.05 |
-0.58 |
|
0.94 |
0.92 |
0.08 |
0.57 |
0.84 |
1.00 |
0.79 |
0.38 |
-0.81 |
|
0.91 |
0.86 |
0.32 |
0.70 |
0.90 |
0.79 |
1.00 |
0.28 |
-0.72 |
|
0.25 |
0.21 |
-0.46 |
0.08 |
0.05 |
0.38 |
0.28 |
1.00 |
-0.50 |
|
-0.71 |
-0.79 |
0.24 |
-0.58 |
-0.58 |
-0.81 |
-0.72 |
-0.50 |
1.00 |
|
Проведенный корреляционный анализ массива Y и X1... Х8 подтвердил правильность выбора Y.
Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х8).
Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=86.21.
Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х8.
Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.
В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 0.999. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.998. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.
Применим F-статистику, чтобы определить, является ли этот результат случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.
Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.
Используя односторонний тест. F-наблюдаемое равно 663.83, что больше , чем F-критическое значение 5.999. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.
Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.
Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 2.132 (Критерий Student-а).
На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.
Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.
Ниже приводятся полученные результаты:
X0 b0 = 7.976 Sb0 = 0.317 T0наб. = 6.543 Значим.
X1 b1 = 0.204 Sb1 = 0.0960 T1наб. = 2.125 Значим.
X2 b2 = 0.0563 Sb2 = 0.0380 T2наб. = 1.482 Исследовать
X3 b3 = -0.105 Sb3 = 0.0785 T3наб. = 1.342 Исследовать
X4 b4 = 0.548 Sb4 = 0.109 T4наб. = 5.013 Значим.
X5 b5 = 0.143 Sb5 = 0.0989 T5наб. = 1.445 Исследовать
X6 b6 = 0.0230 Sb6 = 0.0690 T6наб. = 0.333 Исследовать
X7 b7 = 0.0429 Sb7 = 0.0135 T7наб. = 3.171 Значим.
X8 b8 = 0.0041 Sb8 = 0.0070 T8наб. = 0.584 Исследовать
|
3 |
G7_1 |
G7_2 |
G7_3 |
G7_4 |
---|---|---|---|---|---|
|
|
711AS |
722 |
81 |
Used |
|
G7 |
Accommodation & Performing arts & Amusements, spectator sports, museums, and related activities |
Food services and drinking places |
Other services, except government |
Federal & State & Scrap & Noncomparable, used and secondhand goods |
1998 |
6658 |
648 |
666 |
2887 |
2457 |
1999 |
6472 |
666 |
640 |
2842 |
2324 |
2000 |
6517 |
682 |
686 |
2775 |
2374 |
2001 |
6280 |
665 |
653 |
2669 |
2293 |
2002 |
7038 |
760 |
849 |
2677 |
2752 |
2003 |
7787 |
769 |
893 |
2595 |
3530 |
2004 |
6071 |
775 |
845 |
2513 |
1938 |
2005 |
5984 |
856 |
891 |
2486 |
1751 |
2006 |
6046 |
949 |
1008 |
2637 |
1452 |
2007 |
5239 |
909 |
946 |
2264 |
1120 |
2008 |
5441 |
775 |
807 |
2053 |
1806 |
2009 |
4583 |
598 |
677 |
1595 |
1713 |
2010 |
4315 |
668 |
735 |
1798 |
1114 |
Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.
Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X4 по следующим показателям:
Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.
Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.
Функция Y:
Mx=6033; ErrMX=265.59; Sx=957.61; Var=0.159; Me=6071; Ex=0.0713; As=-0.220; Min=4315; Max=7787; Inter=3472; Sum=78431;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X1:
Mx=747.69; ErrMX=29.62; Sx=106.81; Var=0.143; Me=760.00; Ex=-0.527; As=0.601; Min=598.00; Max=949.00; Inter=351.00; Sum=9720;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X2:
Mx=792.00; ErrMX=34.22; Sx=123.38; Var=0.156; Me=807.00; Ex=-1.292; As=0.261; Min=640.00; Max=1008; Inter=368.00; Sum=10296;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X3:
Mx=2445; ErrMX=112.06; Sx=404.05; Var=0.165; Me=2595; Ex=0.239; As=-1.097; Min=1595; Max=2887; Inter=1292; Sum=31791;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X4:
Mx=2048; ErrMX=187.11; Sx=674.63; Var=0.329; Me=1938; Ex=0.580; As=0.589; Min=1114; Max=3530; Inter=2416; Sum=26624;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
G7 |
G7_1 |
G7_2 |
G7_3 |
G7_4 |
---|---|---|---|---|
|
711AS |
722 |
81 |
Used |
|
Accommodation & Performing arts & Amusements, spectator sports, museums, and related activities |
Food services and drinking places |
Other services, except government |
Federal & State & Scrap & Noncomparable, used and secondhand goods |
1998 |
9.7% |
10.0% |
43.4% |
36.9% |
1999 |
10.3% |
9.9% |
43.9% |
35.9% |
2000 |
10.5% |
10.5% |
42.6% |
36.4% |
2001 |
10.6% |
10.4% |
42.5% |
36.5% |
2002 |
10.8% |
12.1% |
38.0% |
39.1% |
2003 |
9.9% |
11.5% |
33.3% |
45.3% |
2004 |
12.8% |
13.9% |
41.4% |
31.9% |
2005 |
14.3% |
14.9% |
41.5% |
29.3% |
2006 |
15.7% |
16.7% |
43.6% |
24.0% |
2007 |
17.4% |
18.1% |
43.2% |
21.4% |
2008 |
14.2% |
14.8% |
37.7% |
33.2% |
2009 |
13.0% |
14.8% |
34.8% |
37.4% |
2010 |
15.5% |
17.0% |
41.7% |
25.8% |
MX |
0.127 |
0.134 |
0.406 |
0.333 |
Beta |
Sb |
Tstudent |
Tкрит |
R2 |
SeY |
Fнабл |
Fкрит |
ST |
SE |
---|---|---|---|---|---|---|---|---|---|
2.97 |
0.22 |
4.85 |
1.86 |
1.00 |
79.0 |
438.5 |
3.69 |
11004090 |
49959 |
0.06 |
0.13 |
0.46 |
|
|
|
|
|
|
|
0.22 |
0.10 |
2.09 |
|
|
|
|
|
|
|
0.43 |
0.04 |
9.66 |
|
|
|
|
|
|
|
0.32 |
0.02 |
14.65 |
|
|
|
|
|
|
|
Determinant |
1E-18 |
|
|
|
|
|
|
|
|
1.00 |
0.09 |
0.10 |
0.84 |
0.89 |
|
|
|
|
|
0.09 |
1.00 |
0.94 |
0.14 |
-0.29 |
|
|
|
|
|
0.10 |
0.94 |
1.00 |
-0.01 |
-0.19 |
|
|
|
|
|
0.84 |
0.14 |
-0.01 |
1.00 |
0.57 |
|
|
|
|
|
0.89 |
-0.29 |
-0.19 |
0.57 |
1.00 |
|
|
|
|
|
Проведенный корреляционный анализ массива Y и X1... Х4 не подтвердил правильность выбора Y. Проведенный анализ предполагает, что зависимая переменная Y расположена не в 1 колонке, а в колонке - 5. Эта переменная обозначена как: Federal&State&Scrap&Noncomparable, used and secondhand goods. Это можно объяснить неправильным выбором Y, или тем фактом, что некоторые участвующие в регрессионной модели предсказывающие переменные Х1,...,Х4 взаимно коррелированны (взаимосвязаны и влияют друг на друга), т.е. они по-настоящему не являются независимыми переменными.
Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х4).
Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=79.02.
Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х4.
Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.
В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 0.995. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.993. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.
Применим F-статистику, чтобы определить, является ли этот результат случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.
Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.
Используя односторонний тест. F-наблюдаемое равно 438.53, что больше , чем F-критическое значение 3.687. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.
Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.
Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 1.860 (Критерий Student-а).
На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.
Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.
Ниже приводятся полученные результаты:
X0 b0 = 2.969 Sb0 = 0.224 T0наб. = 4.849 Значим.
X1 b1 = 0.0612 Sb1 = 0.132 T1наб. = 0.465 Исследовать
X2 b2 = 0.215 Sb2 = 0.103 T2наб. = 2.089 Значим.
X3 b3 = 0.433 Sb3 = 0.0448 T3наб. = 9.658 Значим.
X4 b4 = 0.316 Sb4 = 0.0216 T4наб. = 14.65 Значим.
7 |
GII |
G1 |
G2 |
G3 |
G4 |
G5 |
G6 |
G7 |
---|---|---|---|---|---|---|---|---|
1998 |
182013 |
37638 |
38082 |
57027 |
23938 |
3578 |
15092 |
6658 |
1999 |
186965 |
41284 |
39730 |
55342 |
24808 |
3958 |
15371 |
6472 |
2000 |
184507 |
36442 |
38444 |
57924 |
24559 |
4443 |
16178 |
6517 |
2001 |
177118 |
38261 |
33970 |
54022 |
23501 |
4714 |
16370 |
6280 |
2002 |
177008 |
36063 |
33465 |
52985 |
25074 |
5022 |
17361 |
7038 |
2003 |
182217 |
35986 |
33378 |
53188 |
29492 |
4747 |
17639 |
7787 |
2004 |
190834 |
39079 |
39574 |
55483 |
27954 |
4888 |
17785 |
6071 |
2005 |
206817 |
44011 |
41842 |
60182 |
29873 |
5501 |
19424 |
5984 |
2006 |
207273 |
42109 |
42200 |
61048 |
30287 |
5595 |
19988 |
6046 |
2007 |
203296 |
37740 |
38654 |
66688 |
29405 |
5225 |
20345 |
5239 |
2008 |
202951 |
37616 |
34339 |
71647 |
29077 |
4421 |
20410 |
5441 |
2009 |
156458 |
30210 |
23039 |
55133 |
22157 |
4138 |
17198 |
4583 |
2010 |
172523 |
29962 |
25299 |
64124 |
24865 |
6773 |
17185 |
4315 |
Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.
Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X7 по следующим показателям:
Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.
Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.
Функция Y:
Mx=186922; ErrMX=4185; Sx=15089; Var=0.0807; Me=184507; Ex=-0.229; As=-0.245; Min=156458; Max=207273; Inter=50815; Sum=2.43E+06;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X1:
Mx=37415; ErrMX=1122; Sx=4046; Var=0.108; Me=37638; Ex=0.394; As=-0.507; Min=29962; Max=44011; Inter=14049; Sum=486401;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X2:
Mx=35540; ErrMX=1634; Sx=5892; Var=0.166; Me=38082; Ex=0.626; As=-1.106; Min=23039; Max=42200; Inter=19161; Sum=462016;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X3:
Mx=58830; ErrMX=1583; Sx=5708; Var=0.0970; Me=57027; Ex=0.591; As=1.125; Min=52985; Max=71647; Inter=18662; Sum=764793;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X4:
Mx=26538; ErrMX=790.99; Sx=2852; Var=0.107; Me=25074; Ex=-1.746; As=0.0340; Min=22157; Max=30287; Inter=8130; Sum=344990;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X5:
Mx=4846; ErrMX=228.54; Sx=824.00; Var=0.170; Me=4747; Ex=1.402; As=0.822; Min=3578; Max=6773; Inter=3195; Sum=63003;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X6:
Mx=17719; ErrMX=503.18; Sx=1814; Var=0.102; Me=17361; Ex=-1.101; As=0.276; Min=15092; Max=20410; Inter=5318; Sum=230346;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X7:
Mx=6033; ErrMX=265.59; Sx=957.61; Var=0.159; Me=6071; Ex=0.0713; As=-0.220; Min=4315; Max=7787; Inter=3472; Sum=78431;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
GII |
G1 |
G2 |
G3 |
G4 |
G5 |
G6 |
G7 |
---|---|---|---|---|---|---|---|
1998 |
20.7% |
20.9% |
31.3% |
13.2% |
2.0% |
8.3% |
3.7% |
1999 |
22.1% |
21.2% |
29.6% |
13.3% |
2.1% |
8.2% |
3.5% |
2000 |
19.8% |
20.8% |
31.4% |
13.3% |
2.4% |
8.8% |
3.5% |
2001 |
21.6% |
19.2% |
30.5% |
13.3% |
2.7% |
9.2% |
3.5% |
2002 |
20.4% |
18.9% |
29.9% |
14.2% |
2.8% |
9.8% |
4.0% |
2003 |
19.7% |
18.3% |
29.2% |
16.2% |
2.6% |
9.7% |
4.3% |
2004 |
20.5% |
20.7% |
29.1% |
14.6% |
2.6% |
9.3% |
3.2% |
2005 |
21.3% |
20.2% |
29.1% |
14.4% |
2.7% |
9.4% |
2.9% |
2006 |
20.3% |
20.4% |
29.5% |
14.6% |
2.7% |
9.6% |
2.9% |
2007 |
18.6% |
19.0% |
32.8% |
14.5% |
2.6% |
10.0% |
2.6% |
2008 |
18.5% |
16.9% |
35.3% |
14.3% |
2.2% |
10.1% |
2.7% |
2009 |
19.3% |
14.7% |
35.2% |
14.2% |
2.6% |
11.0% |
2.9% |
2010 |
17.4% |
14.7% |
37.2% |
14.4% |
3.9% |
10.0% |
2.5% |
MX |
0.200 |
0.189 |
0.315 |
0.142 |
0.026 |
0.095 |
0.032 |
Beta |
Sb |
T student |
Tкрит |
R2 |
SeY |
Fнабл |
Fкрит |
ST |
SE |
---|---|---|---|---|---|---|---|---|---|
6.48 |
0.09 |
21.95 |
2.02 |
1.00 |
186.10 |
11269 |
4.82 |
3E+09 |
173160 |
0.21 |
0.01 |
25.97 |
|
|
|
|
|
|
|
0.16 |
0.01 |
29.71 |
|
|
|
|
|
|
|
0.33 |
0.01 |
53.44 |
|
|
|
|
|
|
|
0.18 |
0.01 |
22.86 |
|
|
|
|
|
|
|
0.03 |
0.00 |
12.20 |
|
|
|
|
|
|
|
0.04 |
0.01 |
6.13 |
|
|
|
|
|
|
|
0.02 |
0.00 |
5.11 |
|
|
|
|
|
|
|
Deter |
-1E-19 |
|
|
|
|
|
|
|
|
1.00 |
0.79 |
0.81 |
0.55 |
0.85 |
0.19 |
0.68 |
0.12 |
|
|
0.79 |
1.00 |
0.93 |
0.02 |
0.56 |
-0.12 |
0.25 |
0.44 |
|
|
0.81 |
0.93 |
1.00 |
0.05 |
0.55 |
-0.14 |
0.20 |
0.48 |
|
|
0.55 |
0.02 |
0.05 |
1.00 |
0.46 |
0.33 |
0.68 |
-0.58 |
|
|
0.85 |
0.56 |
0.55 |
0.46 |
1.00 |
0.37 |
0.81 |
0.15 |
|
|
0.19 |
-0.12 |
-0.14 |
0.33 |
0.37 |
1.00 |
0.46 |
-0.40 |
|
|
0.68 |
0.25 |
0.20 |
0.68 |
0.81 |
0.46 |
1.00 |
-0.30 |
|
|
0.12 |
0.44 |
0.48 |
-0.58 |
0.15 |
-0.40 |
-0.30 |
1.00 |
|
|
Проведенный корреляционный анализ массива Y и X1... Х7 подтвердил правильность выбора Y.
Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х7).
Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=186.10.
Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х7.
Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.
В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 1.000. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=1.000. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.
Применим F-статистику, чтобы определить, является ли этот результат случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.
Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.
Используя односторонний тест. F-наблюдаемое равно 11269, что больше , чем F-критическое значение 4.818. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.
Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.
Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 2.015 (Критерий Student-а).
На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.
Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.
Ниже приводятся полученные результаты:
X0 b0 = 6.484 Sb0 = 0.0851 T0наб. = 21.95 Значим.
X1 b1 = 0.212 Sb1 = 0.0082 T1наб. = 25.97 Значим.
X2 b2 = 0.164 Sb2 = 0.0055 T2наб. = 29.71 Значим.
X3 b3 = 0.331 Sb3 = 0.0062 T3наб. = 53.44 Значим.
X4 b4 = 0.178 Sb4 = 0.0078 T4наб. = 22.86 Значим.
X5 b5 = 0.0302 Sb5 = 0.0025 T5наб. = 12.20 Значим.
X6 b6 = 0.0443 Sb6 = 0.0072 T6наб. = 6.129 Значим.
X7 b7 = 0.0204 Sb7 = 0.0040 T7наб. = 5.113 Значим.
3 |
VA |
VA1_1 |
VA1_2 |
VA1_3 |
---|---|---|---|---|
|
|
V001 |
V002 |
V003 |
|
Value Added |
Compensation of employees |
Taxes on production and imports, less subsidies |
Gross operating surplus |
1998 |
103244 |
60909 |
2967 |
39368 |
1999 |
110837 |
64429 |
3028 |
43380 |
2000 |
112038 |
65150 |
3118 |
43770 |
2001 |
103603 |
64307 |
3073 |
36223 |
2002 |
102909 |
64719 |
3150 |
35040 |
2003 |
101293 |
65346 |
3234 |
32713 |
2004 |
110387 |
67557 |
3337 |
39493 |
2005 |
112009 |
68977 |
3482 |
39550 |
2006 |
119048 |
73143 |
3672 |
42233 |
2007 |
116570 |
71425 |
3993 |
41152 |
2008 |
104946 |
68441 |
4258 |
32247 |
2009 |
106709 |
61984 |
3949 |
40776 |
2010 |
103260 |
62850 |
4122 |
36288 |
Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.
Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X3 по следующим показателям:
Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.
Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.
Функция Y:
Mx=108219; ErrMX=1576; Sx=5681; Var=0.0525; Me=106709; Ex=-0.752; As=0.605; Min=101293; Max=119048; Inter=17755; Sum=1.41E+06;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X1:
Mx=66095; ErrMX=1005; Sx=3625; Var=0.0548; Me=65150; Ex=-0.317; As=0.587; Min=60909; Max=73143; Inter=12234; Sum=859237;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X2:
Mx=3491; ErrMX=126.34; Sx=455.51; Var=0.130; Me=3337; Ex=-1.356; As=0.524; Min=2967; Max=4258; Inter=1291; Sum=45383;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X3:
Mx=38633; ErrMX=1059; Sx=3819; Var=0.0988; Me=39493; Ex=-0.972; As=-0.397; Min=32247; Max=43770; Inter=11523; Sum=502233;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
VA |
VA1_1 |
VA1_2 |
VA1_3 |
---|---|---|---|
|
V001 |
V002 |
V003 |
|
Compensation of employees |
Taxes on production and imports, less subsidies |
Gross operating surplus |
1998 |
59.0% |
2.9% |
38.1% |
1999 |
58.1% |
2.7% |
39.1% |
2000 |
58.1% |
2.8% |
39.1% |
2001 |
62.1% |
3.0% |
35.0% |
2002 |
62.9% |
3.1% |
34.0% |
2003 |
64.5% |
3.2% |
32.3% |
2004 |
61.2% |
3.0% |
35.8% |
2005 |
61.6% |
3.1% |
35.3% |
2006 |
61.4% |
3.1% |
35.5% |
2007 |
61.3% |
3.4% |
35.3% |
2008 |
65.2% |
4.1% |
30.7% |
2009 |
58.1% |
3.7% |
38.2% |
2010 |
60.9% |
4.0% |
35.1% |
beta |
Sb |
T student |
Tкрит |
R2 |
SeY |
Fнабл |
Fкрит |
ST |
SE |
2.42 |
0.11 |
7.80 |
1.83 |
1.00 |
192.08 |
3496 |
3.63 |
4E+08 |
332060 |
0.60 |
0.01 |
57.83 |
|
|
|
|
|
|
|
0.04 |
0.00 |
7.82 |
|
|
|
|
|
|
|
0.35 |
0.01 |
65.93 |
|
|
|
|
|
|
|
Det |
-2E-17 |
|
|
|
|
|
|
|
|
1.00 |
0.76 |
0.16 |
0.75 |
|
|
|
|
|
|
0.76 |
1.00 |
0.34 |
0.14 |
|
|
|
|
|
|
0.16 |
0.34 |
1.00 |
-0.21 |
|
|
|
|
|
|
0.75 |
0.14 |
-0.21 |
1.00 |
|
|
|
|
|
|
Проведенный корреляционный анализ массива Y и X1... Х3 подтвердил правильность выбора Y.
Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х3).
Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=192.08.
Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х3.
Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.
В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 0.999. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=0.999. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.
Применим F-статистику, чтобы определить, является ли этот результат случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.
Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.
Используя односторонний тест. F-наблюдаемое равно 3496, что больше , чем F-критическое значение 3.633. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.
Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.
Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 1.833 (Критерий Student-а).
На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.
Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.
Ниже приводятся полученные результаты:
X0 b0 = 2.425 Sb0 = 0.114 T0наб. = 7.800 Значим.
X1 b1 = 0.605 Sb1 = 0.0105 T1наб. = 57.83 Значим.
X2 b2 = 0.0351 Sb2 = 0.0045 T2наб. = 7.815 Значим.
X3 b3 = 0.351 Sb3 = 0.0053 T3наб. = 65.93 Значим.
2 |
GO |
VA |
GII |
---|---|---|---|
1998 |
285257 |
103244 |
182013 |
1999 |
297802 |
110837 |
186965 |
2000 |
296545 |
112038 |
184507 |
2001 |
280721 |
103603 |
177118 |
2002 |
279917 |
102909 |
177008 |
2003 |
283510 |
101293 |
182217 |
2004 |
301221 |
110387 |
190834 |
2005 |
318826 |
112009 |
206817 |
2006 |
326321 |
119048 |
207273 |
2007 |
319866 |
116570 |
203296 |
2008 |
307897 |
104946 |
202951 |
2009 |
263167 |
106709 |
156458 |
2010 |
275783 |
103260 |
172523 |
Исходные данные могут быть охарактеризованы простейшими средствами описательной статистики. Они позволяют получить представление об особенностях исследуемого показателя и перспективности использования более глубоких методов анализа.
Далее будет представлена дескриптивная статистика по всем переменным Y,X1,...,X2 по следующим показателям:
Мх - среднее значение, ErrMX - стандартная ошибка относительно среднего, Sx - среднеквадратическое отклонение, Var - вариация Var=Sx/Mx, Me - медианана, середина выборки, Ex - эксцесс относительная остроконечность (Ex>0) или сглаженность распределения (Ex<0, предел Ex>=-2), As - асимметрия степень несимметричности распределения относительно MX, Min - минимальное число в выборке, Max - максимальное число в выборке, Inter - интервал разница между Max-Min, Sum - Сумма всех чисел в выборке.
Отметим интересный момент, связанный с функцией распределения. Функция симметрична при условии: Мх=Мe=Mо, показатель Ass=0, а эксцесс Ex=0. При Mо<Мe<Мх, то имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. График функции распределения ее экстремум - Mo, смещен влево относительно Мх. При Мх<Мe<Mо, то имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0. График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Анализируя Me & Mx или знак Ass можно, например, для Мх<Мe утверждать, что у более половины Xi преобладают большие величины.
Функция Y:
Mx=295141; ErrMX=5325; Sx=19198; Var=0.0650; Me=296545; Ex=-0.911; As=0.167; Min=263167; Max=326321; Inter=63154; Sum=3.84E+06;
График функции распределения ее экстремум - Mo, смещен вправо относительно Мх. Имеет место левосторонняя асимметрия, она отрицательна, т.к. Мх-Me<0 При условии Ме>Мх можно утверждать, что у более половины Xi преобладают большие величины.
Переменная X1:
Mx=108219; ErrMX=1576; Sx=5681; Var=0.0525; Me=106709; Ex=-0.752; As=0.605; Min=101293; Max=119048; Inter=17755; Sum=1.41E+06;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
Переменная X2:
Mx=186922; ErrMX=4185; Sx=15089; Var=0.0807; Me=184507; Ex=-0.229; As=-0.245; Min=156458; Max=207273; Inter=50815; Sum=2.43E+06;
График функции распределения ее экстремум - Mo, смещен влево относительно Мх. Имеет место правосторонняя асимметрия, она положительна, т.к. Мх-Me>0. При условии Мх>Мe можно утверждать, что у более половины Xi преобладают меньшие величины.
GO |
VA |
GII |
---|---|---|
1998 |
36.2% |
63.8% |
1999 |
37.2% |
62.8% |
2000 |
37.8% |
62.2% |
2001 |
36.9% |
63.1% |
2002 |
36.8% |
63.2% |
2003 |
35.7% |
64.3% |
2004 |
36.6% |
63.4% |
2005 |
35.1% |
64.9% |
2006 |
36.5% |
63.5% |
2007 |
36.4% |
63.6% |
2008 |
34.1% |
65.9% |
2009 |
40.5% |
59.5% |
2010 |
37.4% |
62.6% |
MX |
0.367 |
0.633 |
Beta |
Sb |
|
Tкрит |
R2 |
SeY |
Fнабл |
Fкрит |
ST |
SE |
---|---|---|---|---|---|---|---|---|---|
1.99 |
0.06 |
12.18 |
1.81 |
1.00 |
252 |
34709 |
3.71 |
4E+09 |
637057 |
0.37 |
0.01 |
60.05 |
|
|
|
|
|
|
|
0.63 |
0.00 |
160.38 |
|
|
|
|
|
|
|
Det |
2E-16 |
|
|
|
|
|
|
|
|
1.00 |
0.79 |
0.97 |
|
|
|
|
|
|
|
0.79 |
1.00 |
0.63 |
|
|
|
|
|
|
|
0.97 |
0.63 |
1.00 |
|
|
|
|
|
|
|
Проведенный корреляционный анализ массива Y и X1... Х2 подтвердил правильность выбора Y.
Стандартная ошибка - Se или стандартное отклонение остатков или среднеквадратичное отклонение данный критерий осуществляет оценку уравнения регрессии. Она должна принимать минимальное значение. В многомерной эконометрике этот критерий еще называют стандартной оценкой ошибки, который является многомерным аналогом одномерной статистики ее параметра - дисперсии, или среднеквадратичного отклонения точек относительно средней линии, выбранной для подгонки исследуемой функциональной зависимости Y=F(Х1,..,Х2).
Se для исследуемого регрессионного уравнения составила Se=Sqr(e'e/(n-k-1))=252.40.
Где e'e-векторное произведение ошибки точности уравнения регрессии или сумма квадратов остатков исходного значения Y и Y на линии регрессии для исходных значений Х1,..,Х2.
Данный многомерный критерий является прямым 'родственником', аналогом одномерной статистики - среднеквадратичного отклонения и дисперсии. Поэтому многие из рассмотренных ниже критериев оценки опираются на него.
В исследовании коэффициент детерминации R2, который представляет ту долю общей вариации зависимой переменной, которую объясняет выбранная нами для подгонки регрессия, составил R2 = 1.000. А множественный приведенный коэффициент детерминации R2коррект, с учетом степеней свободы, составил R2коррект=1.000. Это указывает на очень сильную зависимость между независимыми переменными Хi и зависимой переменной Y.
Применим F-статистику, чтобы определить, является ли этот результат случайным.
Предположим, что на самом деле нет взаимосвязи между переменными, а просто были выбраны 13 редких данных, для которых статистический анализ вывел очень сильную взаимозависимость. Величина alfa = 0.05 используется для обозначения вероятности ошибочного вывода о том, что мы имеем очень сильную взаимозависимость.
Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными X и Y имеется.
Используя односторонний тест. F-наблюдаемое равно 34709, что больше , чем F-критическое значение 3.708. Следовательно, полученное регрессионное уравнение можно использовать для предсказания величины Y.
Определим, полезен ли каждый коэффициент наклона bi при Хi для оценки Y.
Для проверки статистической значимости (надежности) коэффициентов при Х, разделим каждый коэффициент на его стандартную ошибку Sbi. Эту величину будем рассматривать по абсолютной величине. Далее сравним полученные значения с t критическим = 1.812 (Критерий Student-а).
На практике только что описанную проверку можно выполнить очень быстро, обратив внимание на следующее простое правило. Если предполагаемая величина углового коэффициента bi равна нулю (в генеральной совокупности), то статистику t можно записать в виде отношения оценки углового коэффициента bi к оценке его стандартной ошибки Sbi. Когда v>5 критическое значение t всегда менее 2,0 на уровне значимости 5%. Поскольку в экономических применениях регрессионного анализа степени свободы - v почти всегда больше 5,т.e. v=(n-K-1)>5, то мы пользуемся этим простым правилом для отбрасывания нулевой гипотезы, котрая предполагает, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y незначимо, поэтому очевидно, что коэффициент bi при Xi должен быть равен нулю. Поэтому если абсолютное значение выборочного углового коэффициента bi более чем в 2 раза превышает его стандартную ошибку Sbi, то можно отбросить нулевую гипотезу и статистически достоверно утверждать, что в генеральной совокупности исследуемый параметр Xi и его влияние на Y значимо и поэтому коэффициент bi при Xi не равен нулю и более чем в 2 раза превышает свою стандартную ошибку Sbi.
Для проверки достоверности различий векторов средних в многомерном анализе осуществляют при помощи так называемого Т2 - критерия Хотеллинга, похожего по конструкции на свой одномерный анализ t-критерий Student-а.
Ниже приводятся полученные результаты:
X0 b0 = 1.994 Sb0 = 0.0566 T0наб. = 12.18 Значим.
X1 b1 = 0.371 Sb1 = 0.0062 T1наб. = 60.05 Значим.
X2 b2 = 0.627 Sb2 = 0.0039 T2наб. = 160.38 Значим.