Можно ли верить данным о потерях ВС РФ, опубликованным проектом «Хочу жить»? Анализ CIT
Проект «Хочу жить» 6 октября опубликовал данные о потерях российской армии в войне против Украины с начала 2025 года. В случае, если представленная информация аутентична, этот документ может стать уникальным источником, позволяющим узнать как реальные потери ВС РФ, так и соотношение между убитыми, ранеными, пропавшими без вести и пленными военнослужащими во всей действующей армии, а не на уровне отдельных частей или соединений. Ранее подобной возможности у исследователей не было, поэтому неудивительно, что публикация привлекла всеобщее внимание. В связи с этим наша команда решила изучить представленную информацию и ответить на вопрос, можно ли ей доверять.
Источником информации являются фотографии таблицы на двух листах, в которой указаны потери в живой силе и технике, разбитые по шести группировкам войск (ГВ). Внутри каждой группировки приводятся отдельные данные по входящим в неё объединениям и соединениям, а также частям непрямого подчинения (строка «ЧНП»). В самом проекте не пояснили происхождение данных, также остаётся неясным, является ли приведённая таблица оригинальным документом, либо же в ней просто сведена полученная самим проектом (или переданная ему украинской разведкой) информация.
Если предположить, что опубликован оригинальный документ, его оформление крайне нетипично для Минобороны РФ и вызывает многочисленные вопросы. В частности, документы такого уровня (объединённая группировка войск), содержащие такие данные, обычно имеют гриф секретности («секретно» или даже «совершенно секретно»), дату, исходящий номер, число листов в документе, номер экземпляра и их общее количество. Кроме того, документ должен содержать информацию об адресате, исполнителе документа и ответственном офицере. В зависимости от характера конкретного документа этот набор может варьироваться, а грифы секретности теоретически могли попросту оказаться за кадром, но полное отсутствие каких-либо выходных данных уже само по себе заставляет усомниться в его подлинности.
В том случае, если документ не является оригинальным источником и лишь отражает известную проекту информацию, единственным способом подтвердить её подлинность остаётся анализ самих представленных данных. Для этого мы прибегли к методам статистического анализа.
Распределение последней цифры (сравнение частоты появления той или иной цифры на последнем месте в каждом из чисел анализируемой базы) используется в анализе фальсификаций научных данных с середины 1990-х гг., а электоральной статистики — с 2008 года (в России — с 2009-го). Оно базируется на известном из психологических исследований факте: когда людям ставят задачу сгенерировать случайные числа, они не способны выписывать разные цифры с одинаковой частотой — их бессознательные предпочтения к некоторым из них проявляются в статистике.
При анализе электоральных данных по распределению последней цифры часто отсекаются небольшие участки (менее 100 избирателей), потому что одноразрядные числа и младшие разряды двузначных подчиняются распределению первой и второй цифры по закону Бенфорда (а не равномерному), в то время как распределения третьей и последующих значащих цифр с практической точки зрения от равномерного не отличаются. Поэтому мы решили и в нашем анализе отбросить все однозначные (их 28, не считая нули) и двузначные (их 69) числа. Впрочем, наши результаты практически не чувствительны к порогу отсечки.
В российской электоральной статистике надёжным индикатором наличия фальсификаций нередко становится аномально высокая доля чисел, оканчивающихся на ноль или пять. Похожая аномалия наблюдается и в таблице «Хочу жить», однако в данном случае аномально много пятёрок, но не нулей, а также при этом намного чаще, чем должны, встречаются единицы и двойки.
«Медиазона» предлагает в качестве возможного объяснения наблюдаемой картины фальсификации на уровне исходных данных — российские офицеры, составляющие отчёты для подачи «наверх», сами могут манипулировать числами. Но такая гипотеза может объяснить лишь аномалии в частотах 0 и 5, а все остальные цифры должны быть представлены в равных количествах (распределены равномерно), так как отчётность за восемь месяцев должна собираться из более коротких временных промежутков — месячных отчётов. Данные по таким отчётам наверняка готовятся в разных штабах людьми с разными бессознательными предпочтениями, и в процессе суммирования аномалии должны исчезнуть (более того, как мы покажем ниже, они исчезают даже при суммировании чисел одного автора), а доли всех цифр, кроме 0 и 5 — выровняться.
После отсечения однозначных и двузначных чисел у нас остались 218 значений, из которых 44, оканчивающихся на 0 или 5, мы тоже исключили из рассмотрения, чтобы избежать влияния возможных манипуляций российских офицеров. В итоге при анализе 164 чисел на 1, 2, 3, 4, 6, 7, 8 и 9 должно заканчиваться примерно по ⅛ всего массива (12,5% от 164). Однако в действительности мы получили иную картину:
Полученное распределение существенно отклоняется от равномерного: доля единиц и двоек завышена, тогда как шестёрок и семёрок — заметно занижена (их суммарно меньше, чем одних только двоек). Количественно оценить вероятность того, что это случайное совпадение, позволяет критерий согласия Пирсона, по которому уровень статистической значимости (p-значение) этой аномалии оказывается примерно равным 0,013 (см. приложение). Это значит, что вероятность получить такое распределение случайно в настоящих данных — всего 1,3%. В принципе, на этом можно было бы и остановиться, но мы продолжили анализ, чтобы понять, как именно составлялся этот документ.
Для этого мы разделили имеющиеся данные на «первичные» (136 чисел больше 99, из которых 107 не оканчиваются на 0 или 5) и агрегированные (82 числа больше 99, 57 не оканчиваются на 0 или 5), то есть полученные в результате суммирования данных внутри самой таблицы. Во вторую категорию вошли столбец «Всего», строка «Всего по ОГВ(с)» и суммирующие строки по каждой отдельной ГВ без последней ячейки (столбец «Восстанавливаемые»). Всё остальное вошло в первую категорию.
Наш анализ показал, что агрегированные данные выглядят как случайные (p-значение — 0,64), а вот вероятность того, что «первичные» данные могли получиться в результате суммирования месячных отчётов, уменьшилась с 1,3 до 0,4%.
Таким образом, получается, что автор публикуемого документа сначала заполнил данные по отдельным соединениям, а потом сложил их для получения агрегированных чисел. В результате в агрегированных данных распределение всех последних цифр, кроме нулей и пятёрок, «усреднилось» и стало равномерным, как мы и указывали выше в контексте суммирования месячных отчётов.
Представленные проектом «Хочу жить» данные о российских потерях убитыми почти на 40% превышают аналогичный показатель за 2024 год, рассчитанный «Медузой» и «Медиазоной», и почти на 55% их же расчёт на конец лета 2025 года. В теории такой рост можно было бы объяснить дальнейшей интенсификацией боевых действий — так, в 2024 году, по расчётам тех же изданий, погибло на 75% больше российских военных, чем в 2023 году. Однако, как показал наш анализ, представленные проектом данные имеют явные следы фальсификации, а значит, не могут использоваться в качестве надёжного источника для оценки российских потерь.