Повторяемость

  • автор:

1. Область применения

1.1 Данная методика устанавливает единые требования к оценке и выражению показателей сходимости и систематической точности методов испытаний, находящихся в ведении Комитета D19 по воде. Данные относительно сходимости и систематической погрешности результатов в методе испытаний предусмотрены Руководством по форме и стилю для стандартов ASTM, «Раздел A21. Сходимость и систематическая погрешность (Обязательный раздел).» В принципе данная методика должна распространяться на все методы испытаний.

1.2 За исключением условий, указанных в 1.4, 1.5 и 1.6, данная методика требует от рабочей группы, предлагающей новые методы испытаний, проведения совместных исследований, в результате которых можно получать заключения относительно сходимости (оценок суммарного и стандартного отклонения результатов измерений, выполняемых единственным оператором) и систематической погрешности. Данная методика дает общие рекомендации рабочим группам по планированию и проведению измерений сходимости и систематической погрешности.

1.3 Данная методика также дает рекомендации рабочим группам по проведению ограниченных совместных исследований (именуемым «сравнительные исследования») методов испытаний, которые были пересмотрены, если такой пересмотр включает существенные изменения. Примеры существенных изменений могут включать, но не ограничиваются ими, изменения обязательного или допустимого оборудования, реагентов, времени реакции и т.д.

1.3.1 Изменения в применимых матрицах воды в разделе «Область применения» метода могут представлять собой существенное изменение в соответствии с настоящим положением. Однако признают, что даже первоначальное совместное исследование, возможно, не использовало все разнообразие типов матриц, указанное в первоначальной области применения метода.

1.3.2 В случае расширения диапазона концентраций метода, которое предполагает дополнительное совместное испытание (даже без изменения метода, которое могло бы считаться существенным), требуется полное совместное исследование, как описано в разделах 7.1 — 7.5, но только на парах Юдена с концентрацией представляющей расширенный диапазон. Отметим, что такое совместное исследование может включать всего лишь одну пробу пары Юдена в отдельной воспроизводимой матрице.

1.4 Если из-за специфики метода испытаний или нестабильности проб проведение полномасштабных исследований технически невыполнимо, то они с целью получения оптимальной ограниченной основы для оценки суммарных и стандартных отклонений результатов измерений, выполняемых единственным оператором, должны выполняться в сокращенном объеме.

1.4.1 Примерами подобных испытаний в сокращенном объеме являются локальные исследования, проведенные подкомитетом D19.24 по микробиологическим методам из-за присущей их пробам нестабильности. Эти исследования проводились силами не менее шести совершенно независимых аналитиков, которые начинали анализ однотипных проб в согласованное время.

1.4.2 Если в силу каких-либо обстоятельств получение однотипных проб невозможно, то заключение относительно сходимости результатов испытаний, получаемых единственным оператором, будут отвечать требованиям данной методики. При наличии возможностей это заключение должно также выдаваться по данным, получаемым несколькими независимыми операторами, каждый из которых выполняет дублированные анализы независимых проб (с определенным типом матрицы), которые в целом попадают в заданный диапазон концентраций (см. 7.2.5.2 (3)).

1.4.3 Данная методика неприменима к методикам, основанным на непрерывном отборе проб или непрерывно проводимых измерениях (или тех и других) конкретных компонентов и свойств.

1.4.4 Данная методика также неприменима к измерениям в потоках в открытых каналах.

1.5 Совместные исследования, отвечающие требованиям варианта данной методики, который действовал на момент исследований, должны быть продолжены, чтобы они считались достаточной основой для получения заключений относительно сходимости и систематической погрешности, необходимых для каждого метода испытаний. Если исследование не отвечает действующим минимальным требованиям, предъявляемым к совместным исследованиям, то заключение, содержащее перечень недостатков этого исследования и ссылку на данный раздел, должно включаться в заключение относительно сходимости и систематической погрешности в качестве основы для их исключения из текущих требований.

1.6 Данный подраздел относится к особым исключениям, недостаточно четко указанным в 1.4 или 1.5. После утверждения Комитетом D19, по рекомендациям рецензента-консультанта и секции технической эксплуатации исполнительного подкомитета этого Комитета, заключение, содержащее веские доводы относительно того, почему соответствие со всеми или некоторыми пунктами данной методики не могут быть достигнуто, будет отвечать как требованиям ASTM (1)2, так и связанными с ними требованиям данной методики. Кроме того, Комитет D19 посредством голосования в основном комитете может утвердить публикацию т.н. «предварительного» стандартного метода на срок не более 5 лет. В этих предварительных стандартах должны даваться как минимум заключения относительно сходимости и систематической погрешности измерений, получаемых единственным оператором, а также содержать раздел, относящийся к контролю качества, осуществляемого этим оператором. Публикация предварительного стандарта является условной до полного утверждения программы совместных исследований согласно стандарту D2777. Заключения относительно сходимости и систематической погрешности измерений, допускаемые согласно данному подразделу, должны включать дату их утверждения Комитетом D19.

1.7 В соответствии с разделом A21.2.3 Руководства ASTM по форме и стилю комитет может отложить проведение межлабораторного исследования для нового метода и включить временные данные в раздел «Сходимость и систематическая погрешность», который касается только сходимости результатов одного оператора («повторяемость»). Данное заявление действительно в течение пяти лет с даты первой публикации. В этом случае, отдельное лабораторное исследование следует проводить в соответствии с разделом 7.6.

1.8 В разделе 12 данной методики приведены типовые формы для представления заключения о сходимости и систематической погрешности для: (1) методов испытаний, дающих численные показатели, (2) методов испытаний, дающих неколичественные отчетные данные относительно положительных или отрицательных результатов испытаний, основанные на критериях, определенных в процедуре испытаний, и (3) методов испытаний, определяющих, какие процедуры необходимо использовать, возможно с незначительными изменениями, описанными в других методах испытаний ASTM.

1.9 Все исследования, даже те, из которых исключены некоторые требования разделов 1.4 – 1.8, должны получить одобрение рецензента- консультанта до их начала (см. раздел 8), а также после их окончания (см. раздел 13).

1.10 Данная методика отвечает требованиям к контролю качества (QC), указанным в Методике D 5847.

1.11 Целью данной методики является стимулирование рабочих групп к приложению максимальных усилий по сохранению полученных ими результатов круговых исследований, никакие из которых не должны отбрасываться до тех пор, пока не будут получены веские основания для их исключения. Для достижения поставленной цели рецензент-консультант должен работать в тесном взаимодействии с рабочими группами.

Статистическая погрешность — это та неопределенность в оценке истинного значения измеряемой величины, которая возникает из-за того, что несколько повторных измерений тем же самым инструментом дали различающиеся результаты. Возникает она, как правило, из-за того, что результаты измерения в микромире не фиксированы, а вероятностны. Она тесно связана с объемом статистики: обычно чем больше данных, тем меньше статистическая погрешность и тем точнее результат измерения. Среди всех типов погрешностей она, пожалуй, самая безобидная: понятно, как ее считать, и понятно, как с ней бороться.

Статистическая погрешность: чуть подробнее

Предположим, что ваш детектор может очень точно измерить какую-то величину в каждом конкретном столкновении. Это может быть энергия или импульс какой-то родившейся частицы, или дискретная величина (например, сколько мюонов родилось в событии), или вообще элементарный ответ «да» или «нет» на какой-то вопрос (например, родилась ли в этом событии хоть одна частица с импульсом больше 100 ГэВ).

Это конкретное число, полученное в одном столкновении, почти бессмысленно. Скажем, взяли вы одно событие и выяснили, что в нём хиггсовский бозон не родился. Никакой научной пользы от такого единичного факта нет. Законы микромира вероятностны, и если вы организуете абсолютно такое же столкновение протонов, то картина рождения частиц вовсе не обязана повторяться, она может оказаться совсем другой. Если бозон не родился сейчас, не родился в следующем столкновении, то это еще ничего не говорит о том, может ли он родиться вообще и как это соотносится с теоретическими предсказаниями. Для того, чтобы получить какое-то осмысленное число в экспериментах с элементарными частицами, надо повторить эксперимент много раз и набрать статистику одинаковых столкновений. Всё свое рабочее время коллайдеры именно этим и занимаются, они накапливают статистику, которую потом будут обрабатывать экспериментаторы.

В каждом конкретном столкновении результат измерения может быть разный. Наберем статистику столкновений и усредним по ней результат. Этот средний результат, конечно, тоже не фиксирован, он может меняться в зависимости от статистики, но он будет намного стабильнее, он не будет так сильно прыгать от одной статистической выборки к другой. У него тоже есть некая неопределенность (в статистическом анализе она так и называется: «неопределенность среднего»), но она обычно небольшая. Вот эта величина и называется статистической погрешностью измерения.

Итак, когда экспериментаторы предъявляют измерение какой-то величины, то они сообщают результат усреднения этой величины по всей набранной статистике столкновений и сопровождают его статистической погрешностью. Именно такие средние значения имеют физический смысл, только их может предсказывать теория.

Есть, конечно, и иной источник статистической погрешности: недостаточный контроль условий эксперимента при повторном измерении. Если в физике частиц этот источник можно попытаться устранить, по крайней мере, в принципе, то в других разделах естественных наук он выходит на первый план; например, в медицинских исследованиях каждый человек отличается от другого по большому числу параметров.

Как считать статистическую погрешность?

Существует теория расчета статистической погрешности, в которую мы, конечно, вдаваться не будем. Но есть одно очень простое правило, которое легко запомнить и которое срабатывает почти всегда. Пусть у вас есть статистическая выборка из N столкновений и в ней присутствует n событий какого-то определенного типа. Тогда в другой статистической выборке из N событий, набранной в тех же условиях, можно ожидать примерно n ± √n таких событий. Поделив это на N, мы получим среднюю вероятность встретить такое событие и погрешность среднего: n/N ± √n/N. Оценка истинного значения вероятности такого типа события примерно соответствует этому выражению.

Сразу же, впрочем, подчеркнем, что эта простая оценка начинает сильно «врать», когда количество событий очень мало. В науке обсчета маленькой статистики есть много дополнительных тонкостей.

Более серьезное (но умеренно краткое) введение в методы статистической обработки данных в применении к экспериментам на LHC см. в лекциях arXiv.1307.2487.

Пример 1

Предположим, вы хотите измерить вероятность какого-то очень редкого распада определенного мезона. Вы набрали статистику в миллион событий рождения и распада этого мезона, и среди них обнаружилось 20 событий нужного вам типа распада. Тогда по приведенным выше формулам вы получаете результат: измеренная в эксперименте вероятность распада равна (2 ± 0,45)·10–5. Вы определили эту величину с точностью примерно 25%.

Объем статистики имеет значение!

Продолжим этот пример. Предположим, вам такая точность показалась недостаточной, вам хочется уменьшить статистическую погрешность. В ситуации, когда и детектор, и методика отбора уже работают идеально, это можно сделать только одним способом — накопить побольше статистики.

Для этого вы решили подождать существенно больше времени и в конце концов накопили аж 25 миллионов событий рождения и распада этого мезона. Обработка данных выявила, скажем, 440 событий нужного типа. Значит, по уточненным данным вероятность распада равна (1,76 ± 0,08)·10–5. В пределах статистических погрешностей старое и новое измерение согласуются друг с другом. Но второе измерение намного точнее. Скажем, если теория предсказывает вероятность 1,4·10–5, то старое измерение ему, в общем-то, не противоречит (отличие чуть больше, чем на одно стандартное отклонение, что совершенно в норме), а вот новое измерение от него сильно отличается, на 4,5 стандартных отклонений. Это уже серьезный повод заговорить о несовпадении теории с экспериментом.

Именно поэтому эксперименты в физике элементарных частиц стараются оптимизировать не только по энергии, но и по светимости. Ведь чем больше светимость, тем больше столкновений будет произведено — значит, тем больше будет статистическая выборка. И уже это позволит сделать измерения более точными — даже без каких-либо улучшений в эксперименте. Примерная зависимость тут такая: если вы увеличите статистику в k раз, то относительные статистические погрешности уменьшатся примерно в √k раз.

Пример 2

Если речь идет не просто о подсчетах событий, а об измерении непрерывной величины, то там статистическая погрешность тоже присутствует, но вычисляется она чуть сложнее.

Предположим, вы хотите измерить массу какой-то новой, только что открытой частицы. Частица эта рождается редко, и у вас из всей статистики набралось лишь четыре события рождения этой частицы. В каждом событии вы измерили ее массу, и у вас получилось четыре результата (мы здесь намеренно опускаем возможные систематические погрешности): 755 МэВ, 805 МэВ, 770 МэВ, 730 МэВ. Теперь можно взять область масс от 700 до 850 МэВ и поставить на ней эти четыре точки (рис. 1). Поскольку каждая точка отвечает одному событию с данной массой, мы каждой точке присваиваем погрешность ±1 событие. То, что массы разные, — совершенно нормально, поскольку у нестабильных частиц есть некая «размазка» по массе. Поэтому, согласно теории, ожидается некая плавная кривая, и когда физики говорят про массу нестабильной частицы, они имеют в виду положение максимума этой кривой. Она тоже показана на рис. 1, но только положение и ширина этой кривой заранее неизвестны, они определяются по наилучшему соответствию с данными.

Рис. 1. Данные из примера в виде «экспериментального» графика. Каждая точка отвечает одному событию при данной массе. Пунктирная кривая показывает типичное теоретическое ожидание для распределения «экспериментальных» точек

Из-за того что данных очень мало, мы можем провести эту кривую так, как показано на рисунке, а можем и немножко сместить ее в стороны — и так, и эдак будет осмысленное совпадение. Вычислив среднее значение массы, можно получить положение пика этой кривой, а также его неопределенность: 765 ± 15 МэВ. Эта неопределенность целиком и полностью обязана разным результатам измерений, она и является статистической погрешностью измерения.

Рис. 2. То же, что на рис. 1, но уже на статистике в 60 «экспериментальных» точек

Если мы наберем побольше событий рождения и распада этой частицы, мы сможем увеличить статистику. На рис. 2 показано, как мог бы выглядеть тот же график, если бы у нас уже было 60 событий. Распределение событий по массе начинает приобретать какую-то форму, которая действительно отдаленно напоминает широкий пик, спадающий по краям.

Этот пример — некая симуляция того, как могло бы происходить измерение массы ρ-мезона свыше полувека назад, на заре адронной физики, если бы он был вначале обнаружен в процессе e+e– → π+π–. А теперь перенесемся в наше время.

Рис. 3. Сечение процесса e+e– → π+π– в области энергий от 700 до 850 МэВ, в которой четко проступают ρ-мезон и ω-мезон. Здесь собраны данные восьми экспериментов, изучавших этот процесс. Статистические погрешности измерений детектора BaBar едва заметны глазом. Изображение из статьи arXiv:1010.4180

Сейчас этот процесс изучен вдоль и поперек, статистика набрана огромная (миллионы событий), а значит, и масса ρ-мезона сейчас определена несравнимо точнее. На рис. 3 показано современное состояние дел в этой области масс. Если ранние эксперименты еще имели какие-то существенные погрешности, то сейчас они практически неразличимы глазом. Огромная статистика позволила не только измерить массу (примерно равна 775 МэВ с точностью в десятые доли МэВ), но и заметить очень странную форму этого пика. Такая форма получается потому, что практически в том же месте на шкале масс находится и другой мезон, ω(782), который «вмешивается» в процесс и искажает форму ρ-мезонного пика.

Другой, гораздо более реальный пример влияния статистики на процесс поиска и изучения хиггсовского бозона обсуждался в новости Анимации показывают, как в данных LHC зарождался хиггсовский сигнал.

В статье Сходимость и воспроизводимость измерительных систем были рассмотрены теоретические основы изучения влияния измерительной системы на результаты измерений, а также практические способы определения с помощью статистического пакета Minitab. В данной статье внимание будет уделено способам изучения влияния измерительных систем на результаты деструктивных измерений и разнице в практической реализации анализа систем деструктивных и недеструктивных измерений.

Изучение сходимости и воспроизводимости измерительных систем для недеструктивных измерений (Gage R&R (Crossed))

Рассмотрим простейший способ определения сходимости и воспроизводимости измерительных систем. Для определения будут задействованы 3 оператора, измеряющие 10 деталей дважды.


Рис. 1: Модель анализа Gage R&R (Crossed)

Наиболее желанными результатами двух измерений детали 1 оператором А, будет их совпадение. Разница между результатами измерений в данном случае будет отражать ошибку измерений, связанную с измерительным инструментом. Оценивая сходимость результатов измерений одной и той же детали одним и тем же оператором, можно узнать влияние измерительного инструмента на результаты измерений.

Далее, сравнивая результаты измерений детали 1 оператором А с результатами измерений той же детали оператором В, можно оценить ошибку, связанную с человеческим фактором. Таким образом, можно узнать, насколько воспроизводимы результаты измерений разных операторов.

Сходимость результатов отражает возможность измерительного инструмента повторять свои показания и оценивается по результатам измерений каждого оператора. Воспроизводимость оценивается сравнивая результаты измерений одной детали разными операторами и отражает влияние операторов на показания измерительной системы. Таким образом, анализ сходимости и воспроизводимости измерительных систем (Gage R&R) указывает вклад измерительной системы в целом (и оператора и измерительного оборудования) в результаты измерений.

Загвоздка состоит в том, что для изучения сходимости и воспроизводимости измерительной системы нами была принята возможность измерения каждой детали каждым оператором несколько раз. Как же быть с образцами, измерения которых можно проводить лишь раз в силу того, что измерения приводят к уничтожению образца? К примеру, деструктивные измерения силы разрыва бумаги, определение сухого остатка в молоке или же измерение силы с которой необходимо ударить баночку содовой для того, чтобы напиток вылился. В каждом из рассмотренных случаев измеряемая деталь уничтожается, что делает ее повторное измерение невозможным. Как же рассчитать сходимость и воспроизводимость измерительной системы если деталь, измеренная один раз оператором А, не может быть ни повторно измерена, ни измерена оператором В?

Для оценки сходимости и воспроизводимости измерительной системы следует принять, что возможно провести измерение разных образцов с очень близкими значениями измеряемого параметра, т.е. образцов, формирующих некие группы. Таким образом, операторы могут измерять разные детали из одной группы. Рассмотрим пример определения силы разрыва бумаги, используемой для банкнот. Для проведения измерений необходим совсем небольшой образец бумаги из рулона, которого хватит для измерений всеми операторами по нескольку раз. Не смотря на количество бумаги в рулоне, можно предположить, что все измерения, проведенные с использованием небольшого образца из него, могут иметь близкие значения и быть объединены в одну группу. Такой же образец из второго рулона может быть рассмотрен как вторая группа схожих образцов. Чтобы провести анализ сходимости и воспроизводимости измерительной системы для трех операторов, измеряющих силу разрыва дважды, из каждого рулона следует отобрать всего лишь 6 небольших полосок бумаги. Даже учитывая, что все отобранные пробы на самом деле разные, все же, в данном случае, можно применить тот же способ изучения, что и для недеструктивных измерений, так как образцы действительно близки по свойствам. Т.е. можно применить так называемое перекрестное изучение сходимости и воспроизводимости измерительной системы – Gage R&R (Crossed).

Изучение сходимости и воспроизводимости измерительных систем при деструктивных измерениях (Gage R&R (Nested))

К сожалению, не во всех случаях удается сгруппировать образцы с идентичными свойствами. К примеру, каждый раз при измерении толщины резиновой уплотнительной прокладки штангенциркулем, на ее поверхности остается след – оттиск. Таким образом, даже не уничтожая пробу, повторные ее измерения становятся невозможными. Для получения достоверных результатов изделие разделяется на три пробы, формирующие группу образцов со схожими значениями толщины.

План анализа, в данном случае будет выглядеть следующим образом: операторы измеряют разные образцы одной детали, причем разные операторы будут измерять разные детали: оператор А – детали 1, 2,3, оператор В – детали 4, 5,6, оператор С – детали 7, 8,9 и т.д. Сходимость значений будет оцениваться по разнице результатов измерения образцов одной детали, а воспроизводимость – по средним значениям всех измерений операторов, так как фактически измерению подвергаются разные детали.


Рис. 2: Модель анализа Gage R&R (Nested)

Проведение анализа сходимости и воспроизводимости измерительных систем для деструктивных измерений с помощью статистического пакета Minitab

Рассмотрим пример анализа сходимости и воспроизводимости измерительных систем (Gage R&R (Nested)) для эксперимента с измерениями резиновой уплотнительной прокладки, описанного выше. Предположим, что каждый оператор будет измерять по три детали. Учитывая результаты трех операторов и по трем деталям, каждая из которых будет представлена тремя образцами получаем 27 результатов измерений.

Для проведения анализа Gage R&R Nested:

  1. Выберите Stat > Quality Tools > Gage Study > Gage R&R Study(Nested)
  2. Определите колонки с атрибутами деталей и операторов, а также результатами измерений, как показано на рис. 3


Рис. 3: Окно конфигурации Gage R&R Study (Nested)

Результаты анализа появятся в окне Session в виде таблицы:


Рис. 4: Результаты анализа Gage R&R Study (Nested)

Результаты исследования указывают на то, что 88,56% к общей изменчивости результатов измерений (колонка %Study Var) добавляется самой измерительной системой. Принимая во внимание рекомендации руководства по анализу измерительных систем AIAG, данная измерительная система не подходит для измерений использованных образцов.

Согласно полученным результатам, значение воспроизводимости измерительной системы равно 75,08%, что свидетельствует о различном методе измерений, применяемом всеми операторами и как следствие, наибольшим влиянием на результаты измерений.

В целом, если сравнивать влияние измерительной системы, то можно заключить, что степень вклада последней составляет 78,43% от общей изменчивости показаний. Вариация параметров измеряемых образцов составляет в данном случае 21,57%.

Рассмотрим также способ представления результатов анализа в графическом виде:


Рис. 5: Графические результаты анализа Gage R&R (Nested)

Диаграмма Components of variation указывает общие сведения о результатах анализа: процент вклада каждого из источников в общую вариацию показаний и разброс значений.

Графики R Chart by Operator иллюстрируют диапазон значений полученных каждым оператором при измерении каждой детали. В данном случае, результаты указывают на схожесть исследованных деталей.

Xbar Chart by Operator указывает средние результаты, полученные операторами при измерениях образов. Так как образцы, в данном случае, взяты из разных деталей, то разница в полученных результатах является вполне объяснимой. Кроме того, доверительные интервалы достаточно широки, что говорит о сложности наблюдения разницы между измеренными пробами.

График Width by Operator отображает все результаты измерений, сгруппированные по операторам. По средним значениям полученных результатов построена кривая. На графике четко видно что результаты измерений, полученные оператором 2 намного ниже результатов операторов 1 и 3. В лучшем случае результаты измерений разных операторов совпадают, что свидетельствует о воспроизводимости измерений.

Диаграмма Width by Seal (Operator) отображает все результаты измерений каждой детали. И снова, результаты, полученные оператором 2 ниже результатов остальных операторов.

Выводы

Рассматривая полученные результаты, можно заключить, что измерительная система, операторы и измерительный инструмент, не пригодны для измерения толщины изделий. Значительное влияние на результаты измерений произвела разница между методами, использованными операторами. Но, даже проведя обучение операторов и добившись воспроизводимости их измерений, ощутимое влияние на вариацию результатов будет привносить сходимость показаний измерительного инструмента.

Следующим шагом анализа станет определение возможностей снижения вариации показаний измерительной системы. Возможно ли улучшить измерительную систему? Если нет, то для измерения толщины резиновых уплотнительных прокладок следует использовать другую измерительную систему.

Недостаток анализа сходимости и воспроизводимости измерительных систем при деструктивных измерениях заключается в том, что измеряемый параметр принципиально невоспроизводим, хотя принимается, что образцы одной детали владеют одинаковыми характеристиками. В рассмотренном примере, толщина трех образцов одной резиновой прокладки принимается идентичной. Различие толщины образцов, что особенно характерно для изделий из резины, значительно влияет на показатель сходимости измерительной системы. Таким образом, измерительная система может быть ошибочно признана непригодной, в то время как истинная причина вариаций заключается в различии значений параметров разных образцов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *