Матрица ошибок (confusion matrix) – это таблица, используемая для оценки работы классификатора в машинном обучении.
Она содержит четыре элемента: True Positive (TP), False Positive (FP), False Negative (FN) и True Negative (TN). TP — это количество верно классифицированных положительных примеров. FP – это количество ложноположительных результатов. FN – количество ложноотрицательных результатов, а TN – это количество верно классифицированных отрицательных примеров.
Матрица ошибок часто используется для настройки алгоритмов классификации и оценки их эффективности.
Она позволяет лучше понять способность алгоритма разделять объекты разных классов, а также выбирать гиперпараметры модели.
Приведем пример. Представьте, что мы хотим обучить модель распознавать здоровых пациентов и тех, у кого есть конкретное заболевание. Для этого мы обучили модель на выборке из 1000 пациентов, 800 из которых здоровы, а 200 – больны.
Далее мы протестировали модель на другой выборке из 500 пациентов и получили следующие результаты: 350 пациентов были верно определены как здоровые, 120 верно – как больные.
TP – 120, FP – 100, FN – 80, TN – 200.
Теперь мы можем оценить работу модели и понять, насколько она точно распознает больных людей. В данном случае, качество модели можно оценить по двум метрикам: точность (accuracy) и полнота (recall).
Точность – это доля верно определенных примеров по всем примерам.
Точность нашего примера составляет:
accuracy = (TP + TN) / (TP + FP + FN + TN) = (120 + 200) / (120 + 100 + 80 + 200) = 320 / 500 = 0.64
То есть наша модель правильно классифицировала 64% случаев.
Полнота – это доля верно классифицированных больных пациентов от общего числа больных. Полнота в нашем случае составляет:
recall = TP / (TP + FN) = 120 / (120 + 80) = 0.6
То есть модель распознала только 60% всех больных.
Хотя матрица ошибок может быть полезна для оценки работы модели, ее использование может быть ограничено в случае несбалансированной выборки – когда число примеров в одном классе существенно превышает число примеров в другом классе. Например, если у нас имеется выборка из 1000 здоровых пациентов и только 10 больных, наша модель может быть неспособна правильно определить больных, так как не обладает достаточным количеством информации о них.
В целом, матрица ошибок – это полезный инструмент при работе с алгоритмами машинного обучения, который позволяет более точно оценивать работу модели. Однако ее использование требует некоторой осторожности и учета особенностей выборки.