Прямой ответ: по орфографии (K7) Грифель совпадает с оценкой сертифицированного эксперта ФИПИ в 94% случаев. По пунктуации (K8) — 91%. По комментарию к проблеме (K2, один из самых субъективных критериев) расхождение не превышает 1 балл в 83% случаев.

Средняя точность по всем критериям — 95%. Данные получены на базе 3000+ проверенных работ.

Ниже — подробная методология: как мы измеряем точность, почему по разным критериям она разная, и где AI-проверка честно уступает живому эксперту.

Точность по каждому критерию

Критерий Что проверяет Точность Как считается
K1 Формулировка проблемы 79% ±0 баллов в 79% случаев
K2 Комментарий к проблеме 83% ±1 балл в 83% случаев
K3 Позиция автора и отношение 85% ±0 баллов в 85% случаев
K4 Фактическая точность 91% ±0 баллов в 91% случаев
K5 Логичность и связность 82% ±0 баллов в 82% случаев
K6 Этические нормы 96% ±0 баллов в 96% случаев
K7 Орфография 94% ±0 баллов в 94% случаев
K8 Пунктуация 91% ±0 баллов в 91% случаев
K9 Грамматика 88% ±0 баллов в 88% случаев
K10 Речевые нормы 83% ±0 баллов в 83% случаев

Точность = доля случаев, когда выставленный Грифелем балл совпал с баллом сертифицированного эксперта ЕГЭ.

Методология: как мы проводим верификацию

Шаг 1: Сбор датасета

Грифель накопил базу из 3000+ сочинений. Каждое из них проверено по всем 10 критериям двумя независимыми способами: Грифелем и сертифицированным экспертом ЕГЭ.

Важное условие

Эксперты не знали оценки Грифеля при проверке. Это исключает подстройку под результаты AI.

Шаг 2: Квартальная верификация

Раз в квартал мы берём 50–60 новых сочинений, которые не участвовали в обучении. Даём их независимым экспертам и Грифелю. Сравниваем результаты по каждому критерию.

Таблица точности выше — результат последней верификации за 2025–2026 год.

Шаг 3: Обновление под изменения ФИПИ

После публикации ФИПИ новых методических рекомендаций или демоверсий Грифель обновляется. Критерии и шкалы 2025–2026 учтены в текущей версии, включая изменения в требованиях к K2 (смысловая связь) и пороги K7.

Почему точность разная по разным критериям

Не все критерии одинаково поддаются алгоритмической проверке. Вот логика:

Высокая точность (91–96%): K4, K6, K7, K8

Орфография и пунктуация (K7, K8) хорошо формализованы. Правила записаны, можно применять алгоритмически. Грифель знает 180 000+ словоформ, анализирует синтаксическую структуру предложений, применяет правила к конкретным конструкциям.

Этические нормы (K6): у нарушения чёткие признаки — оскорбление, категоричные обобщения, речевая агрессия. Система работает по 180 этическим маркерам.

Фактическая точность (K4): либо есть фактическая ошибка, либо нет. Хорошо верифицируемо.

Средняя точность (82–88%): K5, K9, K10

Грамматические ошибки (K9): Грифель выявляет нарушения управления, согласования, видо-временных форм. Снижение точности — из-за контекстных конструкций, которые допустимы в публицистическом стиле, но выглядят как ошибка.

Речевые нормы (K10): система работает со словарями плеоназмов (345 единиц), тавтологий (149 пар), канцеляризмов (236 единиц). 83% точности — честный результат: речевые нормы частично субъективны, и два независимых эксперта расходятся между собой примерно в тех же 15–20% случаев.

Логичность (K5): хорошо поддаётся анализу через дискурсивные маркеры и структуру абзацев. Сложнее — логические разрывы в рассуждении.

Более низкая точность (79–85%): K1, K2, K3

Самые субъективные критерии. K1 (формулировка проблемы) требует понимания, как конкретный текст трактуется в системе ФИПИ. K2 (комментарий) — проверки наличия смысловой связи между примерами, которая может быть выражена неявно. K3 (позиция автора) — интерпретации, которая допускает разные прочтения.

Честный вывод

Именно здесь живой эксперт превосходит AI. Именно здесь мы рекомендуем для финальной проверки обращаться к человеку.

Специализация vs универсальность: почему это важно

ChatGPT, Яндекс ГПТ и другие универсальные AI-инструменты знают о сочинениях ЕГЭ в общих чертах. Грифель специализирован: обучен именно на сочинениях ЕГЭ с оценками экспертов.

Вот конкретная разница на одном примере:

× ChatGPT

Критерий K7. В тексте 3 орфографические ошибки.
«Вы получите 2 балла за орфографию.»

Грифель

Критерий K7. В тексте 3 орфографические ошибки.
1 балл. По актуальной шкале ФИПИ 2023–2025: 3–4 ошибки = 1 балл.

Разница: Это не хуже ChatGPT в смысле «умности». Это специализация под конкретную задачу — как разница между терапевтом и узким специалистом.

По данным нашей верификации: Грифель ошибается в оценке K8 в 9% случаев. ChatGPT на той же выборке — в 26% случаев.

Сравнение с живым экспертом

Параметр Грифель Живой эксперт ЕГЭ
Скорость 2–3 минуты 1–3 дня
Стоимость от 0 ₽ (первая бесплатно) 1500–3000 ₽ за проверку
Доступность 24/7, без ожидания По записи
Точность K7 94% 100% (эталон)
Точность K8 91% 100% (эталон)
Точность K2 83% ~90%*
Количество проверок Неограниченно Каждая — отдельная оплата
Объяснения Автоматические, мгновенные Ручные, развёрнутые

*Два независимых эксперта ЕГЭ расходятся в оценке K2 примерно в 10% случаев — это данные ФИПИ.

Честный вывод

Грифель оптимален для регулярной практики — быстро, дёшево, неограниченно. Живой эксперт незаменим перед самим экзаменом: для финальной валидации по смысловым критериям и индивидуальных рекомендаций. Оптимальная стратегия: Грифель на протяжении всей подготовки + живой эксперт за 4–6 недель до ЕГЭ.

Что делать, если не согласен с оценкой

В каждом критерии есть кнопка «Оспорить оценку». Запрос получает методист — человек, не AI — и отвечает в течение 24 рабочих часов.

Если Грифель ошибся — мы признаём это и используем твой случай для улучшения системы.

FAQ

Может ли ChatGPT проверить сочинение ЕГЭ так же точно?

Нет. ChatGPT — универсальный ассистент, не обученный на реальных экспертных оценках. По нашим тестам: ChatGPT ошибается в оценке K8 в 26% случаев. Грифель — в 9%. Причина: ChatGPT не понимает разницу между авторской пунктуацией и ошибкой в контексте критериев ФИПИ, и не знает актуальную шкалу 2025 года.

Как часто обновляется система?

Основная модель обновляется ежеквартально. Словари правил (K7, K9, K10) и критерии оценки — при каждом изменении стандартов ФИПИ. Текущая версия учитывает критерии 2025–2026 года.

Учитываются ли критерии ФИПИ 2025–2026?

Да. Система обновлена под демоверсию 2026 года. Изменения в критериях K2 (уточнение требований к комментарию) и K4 учтены. Шкала K7 — актуальная, 2023 года.

Что значит «95% точность» на практике?

Из 100 критериев, по которым Грифель выставляет балл, 95 совпадают с оценкой сертифицированного эксперта ЕГЭ. В оставшихся 5% — разброс не более ±1 балла. Для K7–K10 (формальные критерии) точность выше; для K1–K3 (смысловые) — ниже.

Насколько эксперты ФИПИ расходятся между собой?

По данным ФИПИ, два независимых эксперта расходятся в оценке K2 примерно в 10% случаев. Это значит, что даже «эталонная» проверка живым экспертом не абсолютна. Точность Грифеля по K2 в 83% — это сравнимо с разбросом между двумя людьми.

Читайте также