Handling categorical features with many levels using a product partition model

Tulio L. Criscuolo, Renato M. Assunção, Rosangela H. Loschi, Wagner Meira Jr, Danna Lesley Cruz Reyes

Research output: Contribution to journalArticlepeer-review

1 Scopus citations

Abstract

Una dificultad común en el análisis de datos es cómo manejar predictores categóricos con una gran cantidad de niveles o categorías. Se han desarrollado pocas propuestas para abordar este importante y frecuente problema. Introducimos un modelo generativo que realiza simultáneamente el ajuste del modelo y la agregación de los niveles categóricos en grupos más grandes. Representamos el predictor categórico por un gráfico donde los nodos son las categorías y establecemos una distribución de probabilidad sobre particiones significativas de este gráfico. Condicionalmente a los datos observados, obtenemos una distribución posterior para la agregación de niveles, lo que permite inferir sobre el agrupamiento más probable para las categorías. Simultáneamente, extraemos inferencias sobre todos los demás parámetros del modelo de regresión. Comparamos nuestros métodos con los de última generación y demostramos que tiene un rendimiento predictivo igualmente bueno y resultados más interpretables. Nuestro enfoque equilibra la precisión frente a la interpretabilidad, una preocupación importante actual en estadísticas y aprendizaje automático.
Translated title of the contributionManejo de características categóricas con muchos niveles utilizando un modelo de partición de productos
Original languageEnglish (US)
Article number1
Pages (from-to)786
Number of pages814
JournalAnnals of Applied Statistics
Volume17
Issue number1
DOIs
StatePublished - Jan 25 2023

Cite this