А вообще база отличная. То ли дело другая, уже чисто российского предприятия. Под тысячу полей с наборами значений в каждом типа 1, "1", 0.1, "Y", "N", "NONE" (строка) и кодовых обозначений типа "UIUYU676876", причём таких опять же сотни разных, т.е. если кодировать one-hot-ом, таблица поди разрастётся до миллиардов ячеек - а выбрасывать такие столбцы нельзя, корреляция-то с целевой переменной там явно имеется... Big data, big dumb fucking data...
Оригинал поста: https://robert-ibatullin.dreamwidth.org/266199.html. Комментируйте через OpenID.