PRÓXIMA PUBLICACIÓN ABRIL 2017.
Presenta un enfoque nuevo en el sentido de que proporciona una revisión exhaustiva reciente de los problemas causados por el desequilibrio de los datos en la predicción y la clasificación y también por que introduce varios de los métodos estadísticos más recientes para tratar estos problemas. El libro discute la propiedad del desequilibrio de datos desde dos puntos de vista. El primero es el desequilibrio cuantitativo, lo que significa que el tamaño de la muestra en una población es muy superior al de otra población. Incluye datos de presencia sólo como caso extremo, donde se confirma la presencia de una especie, mientras que la información sobre su ausencia es incierta, lo cual es especialmente común en ecología de predicción de la distribución del hábitat. El segundo es el desequilibrio cualitativo, lo que significa que la distribución de datos de una población puede ser bien especificada mientras que la de la otra muestra una propiedad altamente heterogénea. Un caso típico es la existencia de valores atípicos comúnmente observados en los datos de expresión génica, y otra serían las características heterogéneas que a menudo se observan en un grupo de casos en estudios de casos y controles. Se discute la extensión del modelo de regresión logística, Maxent, y AdaBoost para datos desequilibrados, proporcionando un nuevo marco para mejorar la predicción, la clasificación y el rendimiento de la selección de variables. También proporciona una nueva perspectiva sobre estos problemas y muestra algunas aplicaciones de los métodos estadísticos recientemente desarrollados a conjuntos de datos reales.