FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN

FACULTAD DE CONTADURÍA Y ADMINISTRACIÓN

Integrantes del Equipo

LA ESTADISTICA EN EL BÉISBOL R Studio en el Béisbol

El Béisbol es un deporte de números, los datos de lo que sucede en un juego son recopilados minuciosamente, y de esta manera, números como el promedio de bateo, las carreras impulsadas, y las carreras permitidas por cada nueve entradas, son datos valiosos y útiles para cualquier fanático de este deporte.

Por más de un siglo, estos números han sido considerados como una medida de cuán bueno o malo es un jugador. Debido a la gran cantidad de datos que se recopilan en el béisbol, los estudiosos del deporte utilizan una ciencia para analizar el béisbol de manera objetiva: la estadística. La estadística es la ciencia de la recopilación, análisis e interpretación de datos, sin embargo no sólo permite recoger, analizar e interpretar datos, sino que ayudan a tomar decisiones y hasta a predecir que puede suceder, basado en estos análisis.

La estadistica es utilizada en dferentes ambitos, ya que ayuda a determinar a determinar cuál es la probabilidad de que ocurra un resultado. En el caso del béisbol, antes de cada partido, los expertos que salen en los canales de deportes utilizan las estadísticas para predecir que equipo tiene mejor posibilidad de ganar. Cuando en las noticias nos hablan de la probabilidad de lluvia, igualmente, nos hablan de estadísticas. Asimismo, los Directivos, Gerentes y personal que administran los equipos de béisbol contratan a expertos en estadística para que los ayuden a determinar los mejores jugadores para cada posición y a su vez decidir cuál de estos sería la mejor alternativa para el equipo desde el punto de vista “beisbolístico” y económico, es decir utilizan la estadística para tomar decisiones basadas en hechos y datos.

Un ejemplo claro de las decisiones que pueden tomar los Directivos y Gerentes que administran los equipos de béisbol, es la contratación de un jugador de segunda base, que estadísticamente hablando tenga las cualidades similares del mejor jugador del torneo anterior, pero realizando su contratación a un menor precio. Por tal motivo los equipos de béisbol, gracias a que utilizan la estadística en el mayor número de decisiones que toman, han incrementado la competitividad en los últimos años. Algunas cuestiones estadisticas que normalmente se preguntan los Directivos y Gerentes que administran los equipos de beisbol son:

  1. ¿Cuál es la mejor estadística para medir la calidad de un buen bateador?
  2. ¿Cuál es la mejor estadística para medir la calidad de un buen lanzador?

La respuesta a estas interrogantes es bien sencilla y única: ninguna.

Resulta verdaderamente imposible medir todas las facetas de un pelotero, sobre todo teniendo en cuenta que el béisbol es uno de los deportes que más estadísticas acumula, tanto colectiva como individualmente.

Por supuesto que existen intentos por reunir “en un solo número” la mayor cantidad de información posible sobre el rendimiento individual de un atleta. A continuación se muestran algunas variables estadísticas de gran importancia en el béisbol: Variables:

  • OBP: (On-base percentage) Porcentaje de embasado de un jugador a la ofensiva.

  • OPS: Esta estadistíca consiste en la suma del OBP + el slugging. ( defecto: no es eficaz a la hora de medir el tiempo de participación de un jugador durante el transcurso de una campaña ).

  • RC: Significa " Runs Created " en español sería " Carreras Creadas “. Esta estadistíca mide el grado de contribución de un pelotero ofensivamente en base al tiempo de participación del jugador durante el transcurso de una campaña. Este renglón abarca el factor ofensivo ( OPS ) + el factor velocidad ( bases robadas, movilididad en bases ). Se considera esta estadistica muy completa a la hora de evaluar el rendimiento ofensivo de un jugador.

  • Win Shares: Ejerce el mismo valor del “RC” en el aspecto ofensivo más el grado de contribución de un determinado jugador en el aspecto defensivo y el picheo. En resumen, mide ofensiva+velocidad+defensa+picheo. Se puede decir que “es la estadistica de mayor peso a la hora de evaluar el rendimiento de un pelotero en todos los aspectos del juego

  • Porcentaje de fildeo: Estadística que muestra la efectividad de un jugador a la defensiva, es decir, este porcentaje orienta en qué grado el pelotero no cometió error en las jugadas a la defensiva que intervino.

  • RF: Acrónimo de “Range Factor”, que en español significa Factor de Rango, se calcula dividiendo la suma de los “Put outs” con las asistencias entre el número de entradas o juegos jugados en una posición dada. La estadística se basa en la premisa de que el número total de outs en los que participa un jugador es más relevante al evaluar su defensiva que el porciento de fildeo.

  • wOBA: Significa (Weighted On Base Average), en español Promedio para Embasarse Ponderado. El wOBA fue creado por Tom Tango a los fines de equilibrar los valores porcentuales provenientes de la sumatoria del OBP y el SLG (OPS). La premisa detrás de esta estadística es que el OPS tiende a favorecer porcentualmente a jugadores con slugging más altos ya que esta última estadística sobreestima el valor de los extra bases (por ejemplo, estadísticamente un doble tiene una expectativa de carreras de 0.77, mientras que un sencillo tiene una expectativa de 0.47, lo cual no se ajusta con la relación 2-1 que aplica el slugging en su cálculo).

  • wRAA: Significa “Weighted Runs Above Average”, algo así como Carreras Pesadas por Encima del Promedio. Es decir, wRAA calcula el número de carreras con que un jugador contribuye al equipo por encima a cómo lo haría un jugador promedio.

  • WHIP: Significa (Walks and Hits per Innings Pitched) en español Bases por bolas y hits por innings lanzados. Esta constituye una de las primeras estadísticas en popularizarse dentro de la esfera del fanático común, gracias al Fantasy Baseball. La misma mide la cantidad de bases por bolas y hits permitidos por un lanzador por cada entrada lanzada.

Las variables mencionadas anteriormente han sido objeto de estudio en diferentes documentales que mencionan la importancia de la estadística en el béisbol, incluso películas, por ejemplo MoneyBall, una filmación protagonizada por Brad Pitt.

A continuación, expondremos un breve resumen de la importancia que tiene la estadística en la trama de esta película.

MONEYBALL LA PELICULA

Pelicula recomendada, que muestra la importancia de la estadística

Pelicula recomendada, que muestra la importancia de la estadística

Moneyball producida en 2011 y dirigida por Bennett Miller con las actuaciones de Brad Pitt y Jonah Hill, la cual se basó en el libro del mismo nombre “Moneyball: The art of winning an unfair game” escrito en 2003 por Michael Lewis, el cual surgió a partir de la pregunta “¿Cómo era posible que uno de los equipos de béisbol más pobres, los Oakland Athletic’s, ganará tantos partidos? La respuesta tenía que ver más con cómo un equipo se gasta el dinero, qué con cuánto dinero tiene.

En la película se habla de la historia de Billy Beane vicepresidente y gerente general de los Oakland Athletic’s un equipo de béisbol que el día 15 de octubre del 2001 perdió su pase a la serie mundial con los Yankees de Nueva York lo que marcó la ruina del equipo, ya que sus principales figuras fueron canjeados a otras organizaciones de béisbol, además de que recibió la noticia que su presupuesto sería el mismo de 2001 por 41 millones de dólares, es decir hablamos de un equipo pobre frente a otros como los Yankees de Nueva York que contaban con un presupuesto de 114 millones de dólares y que podían comprar jugadores de 3 millones.

Ese no era el caso de los Athletic’s ya que podían comprar jugadores de 247 mil dólares. Billy Beane en una visita al equipo de béisbol Indianápolis, conoció a Peter Brand (nombre real Paul Depodesta) un joven economista quien aseguraba que lo que había que hacer “en el béisbol era comprar victorias, no jugadores, y para comprar victorias, hay que comprar carreras” y minimizar el número de derrotas, con esta estrategia lograría llegar al prepuesto establecido por los dueños del equipo, y así fue como comenzaron a trabajar juntos y buscar jugadores que no fueran tan caros, descartados por los demás, pero que con habilidades clave poco valoradas como la forma de lanzar la pelota, la edad, aptitudes. Billy Beane y Peter Brand para realizar esta selección se ayudaron de la Sabermetría y un código de programación para calcular las proyecciones anuales para predecir el rendimiento de los jugadores.

Pero ¿Qué es la Sabermetría? Por sus siglas “Society for American Baseball Research SABR”, es el análisis objetivo y científico del béisbol, basado fundamentalmente en la estadística, al usar la estadística aplicada al béisbol se elaboran índices como el porcentaje pitagórico de victorias que ayudan a lograr una mejor toma de decisiones. Finalmente, los Athlethic’s el 04 de septiembre de 2002 imponen record de 20 victorias consecutivos y los lanza a la post temporada, al final de la temporada los Athletic’s terminaron primeros en el Oeste de la Liga Americana.

A pesar de todos sus éxitos, los Athletic’s perdieron en la primera ronda de la postemporada, esta vez ante los Mellizos de Minnesota. Aun cuando Billy Beane, no logró su sueño de ganar el último partido de la temporada, logró demostrar el valor de su nuevo método de reclutamiento y una forma distinta de jugar béisbol y de hacer las cosas, al extremo de ser considerado una amenaza a la tradición americana del béisbol, tal así que recibió la oferta contractual más alta en la historia del béisbol norteamericano: Un contrato por 12.5 millones de dólares, para dirigir los medias Rojas de Boston, oferta que rechazó para continuar con los Athletic’s

Más tarde el uso de la estadística en el béisbol se replicó en otros equipos como el caso del equipo Boston Red Sox, equipo que en 2004 ganó la primera serie mundial, utilizando esta misma estrategia probada por Billy Beane.

Dar clic en enlace para ver video MoneyBall BIg Data https://youtu.be/lLclCZsRGSk?t=3

En la película MoneyBall se observa el estudio de variables utilizadas en el béisbol, sin embargo esas variables pueden analizarse de una manera detallada usando la tecnología mediante software estadísticos, por ejemplo, el paquete Lahman en R Studio, en el cuál se arrojan datos muy específicos de variables relacionadas al béisbol que deseen ser consultadas y analizadas previo a los partidos.

ORIGEN DEL PAQUETE LAHMAN

Creador de Paquete Lahman

Creador de Paquete Lahman

Sea Lahman nace en 1968 en Estados Unidos de Norte America, su profesión de periodista le ayudo a recolectar un sin fín de datos estadisticos de beisbol desde 1871 hasta 1995. A mediados de la década de 1990, Lahman creó la primera enciclopedia de béisbol en línea en su sitio web de Archivo de Béisbol, más tarde vende el sitio web a Total Sports que posteriormente se declara en quiebla y se pierde dicha base de datos. Lahman decide resucitar el sitio web de Béisbol como una plataforma para continuar la distribución gratuita de su base de datos. A partir de 1995 la base de datos se ha venido alimentado por un grupo de investigadores para lograr la fuente más grande y exacta disponible al público en general.

PAQUETE LAHMAN EN R STUDIO Paquete Lahman en R Studio

Es una colección de estadísticas de béisbol para cada equipo y jugador en la historia de las grandes ligas. Esta base de datos se encuentra en forma de paquete precargado en la base de datos de R Studio con el nombre “Paquete Lahman”, el cual, ofrece una variedad de interesantes retos y oportunidades para el procesamiento de datos y visualización en R.

La forma principal de este paquete, es una base de datos relacional en formato de Microsoft Access. El diseño sigue estos principios generales:

  • Cada jugador se le asigna un código único (playerID).
  • Toda la información en tablas diferentes relativos a ese jugador es marcado con su playerID.

  • El playerIDs están relacionados con nombres y fechas de nacimiento en la tabla Master .
  • Los vínculos similares existen entre otras tablas vía análoga *ID variables. Para explorar en R Studio la base de datos del paquete Lahman, se sugieren los siguientes pasos:

  1. El paquete Lahman se encuentra precargado en R Studio, por tal motivo es necesario instalarlo con el siguiente comando:Usamos el siguiente comando para instalar el paquete Lahman en R:

install.packages(“Lahman”) al final del parentesis tecleamos CTRL+Enter

  1. Una vez instalado el paquete Lahman, para explorar el contenido de las tablas de la base de datos estadisticas usamos el siguiente comando:

LahmanData

Al finalizar la ultima letra tecleamos CTRL +Entrer

Tablas en Paquete Lahman

Tablas en Paquete Lahman

Observamos varias lineas, cada una representa una tabla del paquete Lahman

  1. Utilizamos el nombre de cada tabla como comando para conocer su contenido estaditico: Por ejemplo en la linea 22 de la imagen anterior se observa la tabla “Teams”

  2. Registramos la palabra Teams y tecleamos CTRL + Enter para arrojar en la consola el contenido de esa tabla como se muestra en la siguiente imagen:

Selección de la tabla Teams

Selección de la tabla Teams

Nos arroja los siguientes datos:

Datos con las varables de la tabla Teams

Datos con las varables de la tabla Teams

Se puede realizar el mismo metodo para desplegar la información de cada linea.

CREACIÓN DE DATASET DEL PAQUETE LAHMAN EN R STUDIO

Para la creación de un Dataset en R studio con diferentes variables, podemos utilizar diferentes comandos en cada una de las tablas del paquete Lahman.

Para este ejercicio necesitaremos instalar el paquete Dplyr, posteriormente realizaremos la extracción de ciertas variables de la tabla Teams para poder analizar el comportamiento de los equipos que han jugado desde 1871 hasta el año 2014:

Comencemos con:

  1. Delimitar las variables que queremos extraer, en este caso son YearID (Año), lgID,(Liga) teamID (Equipo) ,L(Juegos perdidos) y R (carreras) mediante el siguiente comando:

mydata<-Teams %>% select(yearID,lgID,teamID,L,R) %>% al finalizar damos enter

  1. En la siguiente linea colocamos el siguiente comando para filtrar de la tabla Teams las variables mencionadas en el comando:

filter(yearID==2014,lgID==“AL”) %>% mutate(wpct=R/(R+L))

  1. Al finalizar seleccionamos las tres lineas y damos CTRL+Enter, como se muestra en la siguiente imagen:
Selección de las tres lineas

Selección de las tres lineas

Nos aparece el Dataset del lado superior derecho con el nombre “Mydata” con 14 observaciones de 6 variables.

Ver Dataset lado superior derecho

Ver Dataset lado superior derecho

  1. Damos Clic en icono que se muestra debajo de la columna “Value” para desplegar el DataSet. Nos muestra la información de la siguiente manera:
Información del Dataset

Información del Dataset

Se puede observar la creación de una pestaña con el nombre del Dataset “Mydata” en la parte superior izquierda (bajo los menus)

Ahora bien tenemos algunas variables sin embargo deseamos saber el porcentaje de juegos ganados por equipo y así conocer su nivel de competitividad.

Se incluyen nuevas variables en el Dataset

Se incluyen nuevas variables en el Dataset

Nos arroja un segundo Dataset del lado superior derecho con el mismo nombre “Mydata”. Sin embargo es el Dataset creado anteriormente solo que con 15 observaciones y 10 variables para analizar.

Creación nuevo Dataset

Creación nuevo Dataset

  1. Damos clic en el icono del nuevo Dataset debajo de la columna Value para abrir la información
Información del nuevo Dataset

Información del nuevo Dataset

Tenemos la información completa de nuestro Dataset donde las variables que se muestran son las siguientes:

  • YearID; Año seleccionado para extraer la información

  • lgID; Liga seleccionada (AL= American Ligue“)

  • TeamID; Nomenclatura de identificación de cada equipo.

  • W; Juegos ganados

  • L; Juegos perdidos

  • R; Carreras realizadas

  • RA; Carreras permitidas

  • wpct; Porcentaje de juegos ganados en la temporada

  • expwin; Expectativa de juegos ganados en la temporada

  • diff; Diferencia entre juegos ganados (W) y Expectativa de juegos ganados en la temporada (expwin)

Para este ejercicio podemos conlcuir que el equipo de la linea 8 con el TeamID LAA, de los 162 partidos jugados del año 1871 al año 2014 ha ganado 98 juegos (columna W), 9 más de la expectativa de 89 (columna expwin) calculada por el paquete Lahman. De tal manera se considera un Rival fuerte al que se debe poner mas atención en el analisis de todas las variables posibles en su juego.

Asimismo en la linea 9 se observa el equipo con el TeamID MIN, el cual, de los 162 partidos jugados gano 70, siendo su expectativa al año 2014 (expwin) de 78, es decir le faltaron 8 juegos por ganar para cumplir a expectativa, por tal motivo se considera un rival no tan fuerte que permite estudiar menos variables en el desempeño de su juego.

CREACIÓN DE GRAFICAS EN R STUDIO CON EL PAQUETE LAHMAN Graficos en R studio

En R Studio también podemos crear graficas que muestran datos estadisticos de las diferentes tablas que integran el paquete Lahman. Para este ejemplo utilizaremos nuevamente el comando “LahmanData” para desplegar las tablas que integran el paquete.

  1. Seleccionamos la linea 4 correspondiente al File “AwardsPlayers” como se muestra en la imagen
Selección de tabla

Selección de tabla

  1. Colocamos el comando:

AwardsPlayers

Y tecleamos CTRL+Enter para desplegar la información de la tabla:

Información de la tabla AwardsPlayers

Información de la tabla AwardsPlayers

  1. De la información que nos arroja la tabla creamos un DATASET para acomodar los datos:
Dataset de tabla AwardsPlayers

Dataset de tabla AwardsPlayers

En esta tabla encontramos datos como:

  • PlayerID: Corresponde al numero con el que se identifica a cada jugador en la base de datos.

  • AwardID: Corresponde a los premios que se otorgaron a los jugadores de beisbol.

  • YearID: Año en el cual se otorgo el premio.

  • LgID: Nivel de liga.

  • Tie: Si el premio fue empate o no.

  • ***Notes:*** Si existe alguna nota sobre el premio.

  1. Con el siguiente comando podemos visuailizar el nomnbre de cada premio y la veces que fue ororgado.

with(AwardsPlayers, table(awardID))

Tipo de premios

Tipo de premios

  1. Con el siguiente comando creamos dataset de los premios y el numero de veces que furon otorgados.

awardtab <- with(AwardsPlayers, table(awardID))

  1. Con el siguiente comando generamos la grafica del dataset anterior, en el cual se puede observar los premios otorgados asi como la frecuancia con la cual se ganaron.

dotplot(awardtab)

Grafica en R Studio

Grafica en R Studio

-GRACIAS POR SU ATENCIÓN

Exito y Superación continua en R Studio

Exito y Superación continua en R Studio