Handling categorical features with many levels using a product partition model

Título traducido de la contribución: Manejo de características categóricas con muchos niveles utilizando un modelo de partición de productos

Tulio L. Criscuolo, Renato M. Assunção, Rosangela H. Loschi, Wagner Meira Jr, Danna Lesley Cruz Reyes

Producción científica: Contribución a una revistaArtículorevisión exhaustiva

1 Cita (Scopus)

Resumen

Una dificultad común en el análisis de datos es cómo manejar predictores categóricos con una gran cantidad de niveles o categorías. Se han desarrollado pocas propuestas para abordar este importante y frecuente problema. Introducimos un modelo generativo que realiza simultáneamente el ajuste del modelo y la agregación de los niveles categóricos en grupos más grandes. Representamos el predictor categórico por un gráfico donde los nodos son las categorías y establecemos una distribución de probabilidad sobre particiones significativas de este gráfico. Condicionalmente a los datos observados, obtenemos una distribución posterior para la agregación de niveles, lo que permite inferir sobre el agrupamiento más probable para las categorías. Simultáneamente, extraemos inferencias sobre todos los demás parámetros del modelo de regresión. Comparamos nuestros métodos con los de última generación y demostramos que tiene un rendimiento predictivo igualmente bueno y resultados más interpretables. Nuestro enfoque equilibra la precisión frente a la interpretabilidad, una preocupación importante actual en estadísticas y aprendizaje automático.
Título traducido de la contribuciónManejo de características categóricas con muchos niveles utilizando un modelo de partición de productos
Idioma originalInglés estadounidense
Número de artículo1
Páginas (desde-hasta)786
Número de páginas814
PublicaciónAnnals of Applied Statistics
Volumen17
N.º1
DOI
EstadoPublicada - ene. 25 2023

Citar esto