Все о геологии :: на главную страницу! Геовикипедия 
wiki.web.ru 
Поиск  
  Rambler's Top100 Service
 Главная страница  Конференции: Календарь / Материалы  Каталог ссылок    Словарь       Форумы        В помощь студенту     Последние поступления
   Геология >> Геохимические науки >> Петрология | Курсы лекций
 Обсудить в форуме  Добавить новое сообщение

ЭКСПЕРИМЕНТАЛЬНАЯ И ТЕХНИЧЕСКАЯ ПЕТРОЛОГИЯ

Авторы: Е.Н.Граменицкий, А.Р.Котельников, А.М.Батанова, Т.И.Щекина, П.Ю.Плечов

Лаборатория эспериментальной и технической петрологии МГУ,
к. A-607, тел. 939-20-40

назад | содержание | вперед
Экспериментальная и техническая петрология. - М.: Научный Мир, 2000. - 416 с.

V-2-3. Аппроксимация экспериментальных зависимостей методом наименьших квадратов (МНК).

До сих пор мы рассматривали ошибки при измерениях какой - либо одной величины. Но бывают случаи, когда необходимо определить зависимость между двумя величинами (X и Y). К ним относятся:

  • Оценка силы связи ( корреляции) между величинами X и Y.
  • Нахождение аналитической зависимости между величинами X и Y (нахождение уравнения регрессии).
  • Оценка степени аппроксимации данной зависимости уравнением регрессии.
  • Примерами могут служить широко используемые (см. следующую главу) зависимости коэффициента распределения компонентов между фазами от температуры (ln KD= A 103/T+B) и от состава X одной из фаз (ln KD = AX2+BX+C).

    Расчет коэффициентов корреляции. Прежде чем находить аналитическую зависимость между величинами X и Y, следует определить, существует ли связь между этими двумя параметрами (например, иногда неясно, зависит ли коэффициент распределения элемента между фазами от состава фаз или от fO2 и т.д.). Для решения подобного рода задач проводят корреляционный анализ.

    Допустим, что у нас есть набор значений двух величин X и Y. Мы хотим проверить, существует ли зависимость между этими величинами, и оценить ее значимость. Для этого необходимо рассчитать выборочный коэффициент корреляции rXY:

    Полученные значения rXY сравнивают с табличными значениями (табл. 30) для заданной доверительной вероятности и числа экспериментальных данных n. Обычно доверительную вероятность () выбирают 0.95, что подходит для большинства экспериментальных исследований. Если рассчитанный rXY больше соответствующего (для заданных n и ) значения коэффициента корреляции из табл. 29, то связь между величинами X и Y значима с вероятностью .

    Таблица 30. Значения коэффициентов корреляции (rXY) для различных доверительных вероятностей.

    (rX,Y)

    Доверительная вероятность

    n

    0.90

    0.95

    0.99

    2

    3

    4

    5

    6

    7

    8

    9

    10

    12

    14

    15

    18

    20

    25

    30

    40

    50

    60

    80

    100

    0.988

    0.900

    0.805

    0.729

    0.669

    0.621

    0.582

    0.549

    0.521

    0.476

    0.441

    0.412

    0.389

    0.369

    0.322

    0.296

    0.257

    0.231

    0.211

    0.183

    0.164

    0.997

    0.950

    0.878

    0.811

    0.754

    0.707

    0.666

    0.632

    0.602

    0.553

    0.514

    0.482

    0.456

    0.433

    0.381

    0.349

    0.304

    0.273

    0.250

    0.217

    0.195

    1.000

    0.990

    0.959

    0.917

    0.874

    0.834

    0.798

    0.765

    0.735

    0.684

    0.641

    0.606

    0.575

    0.549

    0.487

    0.449

    0.393

    0.354

    0.325

    0.283

    0.254

    Рассмотрим расчет коэффициента корреляции на конкретном примере. Пусть для некоторых двух фаз получен набор значений коэффициентов распределения элементов (ln KD Y ) для приведенной температуры t* = 103/T Х. Необходимо определить, зависит ли величина ln KD (Y) от t*(X) и велика ли эта связь.

    1. Расчеты удобно вести по приведенной формуле, записывая результаты в таблицу типа табл. 31.

    Таблица 31. Расчет коэффициента корреляции.

    n

    Xi

    Yi

    Xi -

    Yi -

    (Xi - )( Yi -)

    (Xi -)2

    ( Yi -)2

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    S

    Среднее

    1.00

    1.10

    1.15

    1.20

    1.20

    1.30

    1.40

    1. 40

    1.50

    1.60

    1.70

    1.80

    1.80

    1.90

    20.05

    1.43

    0.21

    0.30

    0.28

    0.27

    0.38

    0.37

    0.43

    0.48

    0.45

    0.56

    0.57

    0.58

    0.63

    0.66

    6.17

    0.44

    - 0.43

    - 0.33

    - 0.28

    - 0.23

    - 0.23

    - 0.13

    - 0.03

    - 0.03

    0.07

    0.17

    0.27

    0.37

    0.37

    0.47

    -

    -

    - 0.23

    - 0.14

    -0.16

    -0.17

    -0.06

    -0.07

    -0.01

    0.04

    0.01

    0.12

    0.13

    0.14

    0.19

    0.22

    -

    -

    0.099

    0.046

    0.045

    0.039

    0.014

    0.009

    0.000

    -0.001

    0.001

    0.020

    0.035

    0.052

    0.070

    0.103

    0.532

    -

    0.185

    0.109

    0.078

    0.053

    0.053

    0.017

    0.001

    0.001

    0.005

    0.029

    0.073

    0.137

    0.137

    0.221

    1.099

    -

    0.053

    0.020

    0.026

    0.029

    0.004

    0.005

    0.000

    0.002

    0.000

    0.014

    0.017

    0.020

    0.036

    0.048

    0.274

    -

    Рассчитаем коэффициент корреляции:

    2. Задаем доверительную вероятность = 0.95.

    3. Сравниваем расчетную величину rXY = 0.969 с табличными данными (табл. 30) для n = 14, = 0.95.

    4. Расчетный rXY (0.969) больше, чем табличное значение (0.514). Следовательно, существует значимая (на уровне 0.95) связь между lnKD и t*.

    Теперь надо найти аналитическую зависимость между ln KD и t* или в общем случае функциональную зависимость вида Y = f ( X).

    В результате эксперимента мы получаем для значений аргумента (Х1, Х2, ..., Хn) набор значений функций (Y1, Y2, ..., Yn ). Если соединить последовательно точки Y1, Y2, ..., Yn ломаной линией, она не является графическим изображением функции Y = f (X), так как при повторении данной серии опытов мы получим ломаную линию, отличную от первой. Значит, измеренные значения Y будут отклоняться от истинной кривой Y = f ( X) вследствие статистического разброса. Наша задача состоит в том, чтобы аппроксимировать экспериментальные данные гладкой (не ломаной) кривой, которая проходила бы как можно ближе к истинной зависимости Y = f(X).

    Теория вероятности показывает, что наилучшим приближением будет такая кривая (или прямая) линия, для которой сумма квадратов расстояний по вертикали от точек до кривой будет минимальной. Метод нахождения кривой, соответствующей этому условию, и называется методом наименьших квадратов (МНК). Фактически это условие минимума соответствует предположению, что разброс точек Yi относительно кривой Y = f (X) подчиняется закону нормального распределения. Мерой этого распределения является среднеквадратическое отклонение:

    .

    Требование минимального разброса соответствует минимальному значению этого среднего квадрата. Обычно форму кривой Y = f (X) задают полиномами вида:

    Y(X) = 0 + 1X + 2Х2 + ... + mXm.

    Нахождение коэффициентов этого полинома сводится к минимизации Sx методами математического анализа, к решению уравнений вида:

    где i = 0, 1, 2, ..., n; j = 0, 1, 2, ...,m; m < n-1.

    Для решения этих уравнений применяют итерациональный (численный) метод. Фактически без применения компьютера расчет (подбор) коэффициентов функции Y = f (X) можно проводить лишь для линейной зависимости: Y = 1X + 0 (т.е. Y = Х +b).

    Для степени m>1 расчет коэффициента m выполняется на компьютерах.

    Расчет параметров линейной зависимости Y = Х +b. Приведем уравнения, позволяющие рассчитывать величины a и b без их вывода.

    Продолжим рассмотрение предыдущего примера, в котором для некоторых 2 фаз была получена следующая зависимость ln KD(Y) от обратной температуры t* = 103 /T(X). Запишем линейное уравнение связи ln KD(Y) = at*(X) + b. Вычислим величины

    Вычисление удобно представить в виде таблицы (табл. 32).

    Таблица 32. Расчет параметров линейной зависимости.

    n

    Xi

    Yi

    XiYi

    Yi2

    Xi2

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    å

    Среднее

    1.00

    1.10

    1.15

    1.20

    1.20

    1.30

    1.40

    1.40

    1.50

    1.60

    1.70

    1.80

    1.80

    1.90

    20.05

    1.43

    0.21

    0.30

    0.28

    0.27

    0.38

    0.37

    0.43

    0.48

    0.45

    0.56

    0.57

    0.58

    0.63

    0.66

    6.17

    0.44

    0.21

    0.33

    0.32

    0.32

    0.46

    0.48

    0.60

    0.67

    0.68

    0.90

    0.97

    1.04

    1.13

    1. 25

    9.36

    0.67

    0.044

    0.090

    0.078

    0.073

    0.144

    0.137

    0.185

    0.230

    0.203

    0.314

    0.325

    0.336

    0.397

    0.436

    2.992

    0.213

    1.00

    1.21

    1.32

    1.44

    1.44

    1.69

    1.96

    1.96

    2.25

    2.56

    2.89

    3.24

    3.24

    3.61

    29.81

    2.13

    Вычислим параметры a и b:

    Итак, зависимость Y = aX + b или ln KD = at* +b выражается линейным уравнением ln KD = 0.471t* - 0.234.

    Расчет точности аппроксимации данных уравнением Y = + b 1. Оценив связи между X и Y (t* и ln KD) (коэффициент корреляции) и найдя линейное уравнение связи, необходимо оценить степень аппроксимации линейным уравнением этой зависимости. Это можно сделать, рассчитывая среднеквадратическое отклонение расчетных значений (Yp) от экспериментальных (Yi):

    .

    Затем рассчитывают погрешность аппроксимации ( Y*) по критерию, предварительно задав степень надежности :

    Рассчитаем значение SY* и Y* для зависимости ln KD = 0.471t* - 0.234 (табл. 33).

    Таблица 33. Расчет точности аппроксимации.

    n

    Xi

    Yi

    Yp

    Yi - Yp

    (Yi - Yp)2

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    å

    1.00

    1.10

    1.15

    1.20

    1.20

    1.30

    1.40

    1.40

    1.50

    1.60

    1.70

    1.80

    1.80

    1.90

    -

    0.21

    0.30

    0.28

    0.27

    0.38

    0.37

    0.43

    0.48

    0.45

    0.56

    0.57

    0.58

    0.63

    0.66

    -

    0.24

    0.28

    0.31

    0.33

    0.33

    0.38

    0.43

    0.43

    0.47

    0.52

    0.57

    0.61

    0.61

    0.66

    -

    - 0.03

    0.02

    - 0.03

    - 0.06

    0.05

    - 0.01

    0.00

    0.05

    - 0.02

    0.04

    0.00

    - 0.03

    0.02

    0.00

    -

    0.0009

    0.0004

    0.0009

    0.0036

    0.0025

    0.0001

    0.0000

    0.0025

    0.0004

    0.0016

    0.0000

    0.0009

    0.0004

    0.0000

    0.0142

    1 Подобный расчет можно проводить и для уравнений более высоких степеней.

    1. Рассчитаем для заданных Хi по найденному уравнению Y = 0.471X - 0.234 значения Yp; (Yi - Yp); (Yi - Yp)2 (табл.13).

    2. Вычислим SY* :

    3. Выберем = 0.95 и по табл. 28 для n =14 найдем tn = 2.2.

    4. Вычислим величину Y*:

    Итак, уравнение Y= 0.471X - 0.234 описывает экспериментальную зависимость ln KD = (Y) от t* (X) с погрешностью 0.02 для доверительной вероятности = 0.95. Практически это означает, что с вероятностью 0.95 все экспериментальные точки будут находиться в пределах ± 0.02 от расчетной прямой.

    Порядок обработки зависимости двух параметров следующий:

    1. Рассчитывается коэффициент корреляции rXY.

    2. По табл. 10 оценивается (для выбранного значения и количества пар X и Y-n) значимость связи X и Y.

    3. Находятся коэффициенты линейного уравнения связи Y = Х +b.

    4. Вычисляется S*Y (среднеквадратическое отклонение кривой Y = Х +b от экспериментальных точек).

    5. Задаем доверительную вероятность . Обычно = 0.95.

    6. По табл. 28 находим значение tn для выбранного и количества точек (пар) - n.

    7. Рассчитаваем погрешность аппроксимации по формуле:

    В заключение напомним порядок статистической обработки серии измерений. С подобной работой наиболее часто приходится сталкиваться экспериментатору:

    1. Вычисляется среднее выборки (из n замеров):

    2. Находятся погрешности отдельных измерений: Xi = X - Хi.

    3. Вычисляется среднеквадратическая ошибка замера:

    4. Если один замер (или несколько) резко отличается от остальных, то следует проверить, не является ли этот замер грубой ошибкой, предварительно выбрав степень надежности (для большинства наших измерений = 0.95.

    5. Определяется коэффициент Стьюдента tan для заданной надежности и числа измерений n (см. табл. 27).

    6. Находятся границы доверительного интервала:

    7. Окончательный результат записывается в виде Х = ± ..

    8. Вычисляется коэффициент вариации данной серии замеров:

    .

    Дополнительная литература.

  • Зайдель А.Н. Элементарные оценки ошибок измерений. - Л, 1968.
  • Кассандрова О.Н., Лебедев В.В. Обработка результатов наблюдений. - М, 1970.
  • Котельников Р.Б. Статистическая обработка экспериментальных данных. Вып. 7 (33), М, 1960.
  • Налимов В.В. Применение математической статистики при анализе вещества. - М, 1960.

  • назад | содержание | вперед

     См. также
    СообщениеФазовые отношения во фторсодержащей гранитной и нефелин-сиенитовой системах и распределение элементов между фазами:
    Биографии ученыхБатанова Анна Михайловна
    Курсы лекцийУральская полевая геологическая практика. Книга 2 (Описание учебных объектов): Использованная литература:
    Биографии ученыхГраменицкий Евгений Николаевич
    СообщениеФазовые отношения во фторсодержащей гранитной и нефелин-сиенитовой системах и распределение элементов между фазами: 2. ЭКСПЕРИМЕНТАЛЬНЫЕ И АНАЛИТИЧЕСКИЕ ПРОЦЕДУРЫ; ОЦЕНКА ТОЧНОСТИ; КРИТЕРИИ РАВНОВЕСИЯ В ОПЫТАХ

    Проект осуществляется при поддержке:
    Геологического факультета МГУ,
    РФФИ
       
    TopList Rambler's Top100