Оценка результатов драйва НФЛ по несуществующим правилам

Рейтинг: 4.6 из 5
Автор
Вадим Соколов
Рейтинг автора
4.6

В этом посте я расскажу, как офис лиги НФЛ использовал повторную выборку для оценки показателей, связанных с межсезонным предложением, касающимся сверхурочной работы.

Задний план

Еще в марте комитет по конкуренции НФЛ и владельцы обсуждали достоинства изменения правил, предложенного Канзас-Сити, которое дало бы обеим командам возможность владеть мячом хотя бы один раз в сверхурочное время. Это создало бы сценарий, не похожий ни на один другой в футболе. Если игра начинается с первого приземления на приводе, принимающая команда:

  1. Требуется приземление, чтобы продлить игру
  2. Никогда не катайся
  3. Никогда не пытайтесь забить с игры
  4. Не заботьтесь о часах

Пункты (ii) и (iii) являются ключевыми. Командам нередко требуется приземление при опоздании, но в таких ситуациях ряд других факторов также играет роль в принятии решений, включая тайм-ауты, качество команды и игровые часы.

В то же время в сверхурочное время команда, нуждающаяся в приземлении, никогда не будет наносить удары по мячу или бить с игры. Так как часто они забивали бы тачдаун?

Передискретизация играет

Для оценки вероятности приземления нам потребуются более подробные данные, чем исходные результаты. Итак, воспользуемся пьесами.

Одна из возможностей заключается в оценке условного распределения заданных результатов игры, расстояния и положения на поле. То есть, учитывая характеристики игрового уровня, оцените вероятность получения определенного метража в следующей игре. Используя это, можно было построить симулятор вождения.

Но с футболом не все так просто. После того, как вы смоделировали набранные метражи, вы бы поняли, что должны были начать с моделирования вероятности текучести кадров. Как только вы смоделируете вероятность текучести кадров, вы поймете, что нужно было начинать с вероятности штрафа. И как только вы смоделировали вероятность штрафа, вы бы поняли, что вам нужно было построить модель, чтобы оценить, где в первую очередь начнется движение. По сути, это статистическая версия «Если вы дадите мышке куки». Здесь вы также можете смоделировать совместное распределение, но на данный момент это область для будущей работы.

При отсутствии построения нескольких таких моделей второй, более простой подход будет использовать наблюдаемый набор игр и некоторую передискретизацию. То есть на каждой прямой, дистанции и ярдовой линии мы будем брать выборку из эмпирического распределения похожих игр, чтобы смоделировать игру, которая может произойти.

Вот версия того, как это выглядит. Учитывая, что наши внутренние данные немного более усовершенствованы, чем то, что там есть публично, для этого поста я изменил наш код, чтобы учесть общедоступные данные воспроизведения от nflscrapr. Каждое из этих воспроизведений хранится во фрейме данных scrapr.plays, полученном с помощью кода здесь.

Предварительная обработка

Во-первых, чтобы мотивация команды примерно соответствовала мотивации тех, кто участвует в сверхурочной игре, я выделю весь набор игр НФЛ в розыгрыш, проводимый в одной игре с владением мячом, за пределами последних двух минут каждого тайма. Я также отбрасываю двухточечные преобразования, создаю индикатор того, произошло ли нащупывание или перехват (is.turnover), произошло ли наступательное (is.td.offense) приземление, и добавляю переменную для линии схватки (ярды от собственного цель, или yfog).

Сэмплирование играет

Затем я пишу функцию sample.rp.drive.needs.TD для выборки df.scrimmage на основе спуска, расстояния и линии схватки. Код для этого здесь. Учитывая, что 1–10 розыгрышей из полузащиты аналогичны розыгрышам 1–10, скажем, с 47-ярдовой линии, процесс выборки дает некоторое пространство для маневра вокруг ярдовой линии, чтобы увеличить количество доступных игр на каждом конце и на каждом расстоянии. В этом примере я использую +/- 3 ярда, +/- 2 ярда, +/- 1 ярд и 0 ярдов для (1-70), (71-90), (91-97) и (98- 99) интервалы между автоголами, соответственно. Я не хочу прибавлять три ярда, когда команда забивает 3-й гол из первого, но я в порядке, пробуя 3-й-5-й результат с 40-ярдовой линии, когда команда на самом деле находится на 42-м голе. образцы игр, игры с 4-м проигрышем рассматриваются как 3-й вариант.

В качестве примера, вот тип результата, который вы получите от функции выше. На одном 1-м десятке Митчелл Трубиски поражает Тейлора Гэбриэла и ловит его на 54 ярда! В следующий раз Стив Грегори убивает Джо Флакко.

Выборка целых дисков

Мы захотим итеративно наращивать драйв, чтобы после каждой игры атакующая команда продолжала пытаться двигаться дальше по полю. Например, после вышеупомянутого улова Габриэля, нападение будет иметь 1-е 10 с линии 21 ярда соперника. Обратите внимание, что для простоты в этом посте я предполагаю, что каждая поездка начинается на 25-ярдовой линии команды - в сверхурочное время примерно 70% поездок начинаются здесь.

Ключевая часть цикла ниже - это команда while (): мы продолжаем пробовать ходы до тех пор, пока (i) не произойдет переход (ii) наступательный тачдаун или (iii) команда сделает это при 4-м дауне и потерпит неудачу, любая из которых будет формально сигнализировать об окончании привода (end.of.drive).

Как выглядит смоделированный диск

Вот один из отобранных дисков. Он начинается с передачи Энди Далтона на 1-10 и заканчивается несколькими розыгрышами позже длинным пасом Дезу Брайанту. Имейте в виду, что это должно выглядеть странно - мы отбираем партии за последнее десятилетие игры и будем переключаться между нарушениями.

Что еще более важно, этот конкретный драйв показывает важность воспроизведения того, что можетпроизойти в сверхурочное время. Выше нарушение было нанесено на 4-2 на его собственной территории, пробег Майка Гиллисли, показанный красным. В типичной игре большинство команд в этой ситуации выбили бы мяч в сторону. Из-за того, что он был вынужден быть агрессивным, то, что в противном случае было вероятным плоскодонкой, превратилось в приземление.

Агрегирование по дискам

Итак, как часто нападавшие забивали тачдаун в сверхурочное время? Вот график результатов драйва. Каждая из 10 000 симуляций представляет собой точку, и примерно 3 из каждых 10 точек означают наступательное приземление. Другими словами, когда требуется только тачдаун и только тачдаун, нападение засчитывается примерно на 30% его движений.

Как это по сравнению с поездками без сверхурочной работы? Что ж, команды совершают тачдаун при первом движении сверхурочного времени примерно в 20% случаев, что примерно соответствует первому драйву в игре. Другими словами, необходимость забить тачдаун увеличивает шанс команды забить этот тачдаун примерно в 1,5 раза.

Но подождите, это еще не все.

Приведенная выше симуляция избегает некоторых вещей, которые усложняют футбольные гонки, в первую очередь штрафов. В нашей работе в офисе лиги мы получили цифру ближе к 40%, чем к 30%. То есть, когда вы добавляете штрафы, которые, как правило, помогают нападению больше, чем защите, вы, вероятно, получите показатель выше, чем 30%, которые я получил выше. Кроме того, изменения в игре (в последнее время - больше пасов) и потенциальные изменения в поведении «третий проигравший» (возможно, команды будут бегать больше, если они будут знать, что они собираются пойти на это?) - две слабые стороны, которые выскакивают из вышеупомянутого подхода.

А пока, надеюсь, это даст вам представление о том, как повторная выборка помогла разработать правила в играх NFL, которых не существует. В нашем случае мы сделали выборку из эмпирического распределения реальных игр, чтобы смоделировать нарушение, движущееся вниз по полю в сверхурочное время. Учитывая вынужденную агрессивность, мы определили показатель оценки приземления, который мы могли бы использовать, чтобы лучше оценить, что может произойти в соответствии с предложением правил, которое изменит работу сверхурочных часов НФЛ.

Новости спорта

Изначально сайт создавался для пользователей со всех стран мира. Международный домен ориентирован на самых разных пользователей. Страницы сайта переведены на 46 языков, среди которых есть и азербайджанский. Это выгодно выделяет платформу на фоне конкурентов, так как многие из них либо не работают на территории данной страны, либо не имеют местной локализации.

Больше новостей