Числові дані: як модель отримує і імпортує дані за допомогою векторних представлень ознак

Досі у вас могло скластися враження, що для роботи моделі безпосередньо використовують рядки з набору даних; однак насправді вони імпортують відомості дещо інакше.

Припустімо, що набір даних містить п’ять стовпців, але лише два з них (b і d) є ознаками для моделі. Хіба модель, обробляючи приклад із рядка 3, просто бере вміст двох виділених клітинок (3b й 3d), як показано нижче?

Рисунок 1. Модель, що імпортує приклад безпосередньо з набору даних.
            Стовпці b й d рядка 3 виділено.
Рисунок 1. Не зовсім точна ілюстрація того, як модель імпортує приклади.

Насправді модель фактично імпортує масив значень із рухомою комою, який називається векторним представленням ознак. Векторне представлення ознак можна уявити як значення з рухомою комою, з яких складається один приклад.

Рисунок 2. Векторне представлення ознак є посередником між набором даних і моделлю.
Рисунок 2. Ця ілюстрація ближча до істини, але нереалістична.

Проте векторні представлення ознак рідко використовують необроблені значення з набору даних. Зазвичай потрібно перетворити значення з набору даних на представлення, на основі яких модель може краще навчатися. Тому реалістичніше векторне представлення ознак виглядатиме приблизно так:

Рисунок 3. Векторне представлення ознак містить два значення з рухомою комою: 0,13 і 0,47. Реалістичніше векторне представлення ознак.
Рисунок 3. Реалістичніше векторне представлення ознак.

Хіба модель не створюватиме кращі прогнози, навчаючись на фактичних значеннях із набору даних, а не на змінених? Як не дивно, відповідь – ні.

Необхідно визначити найкращий спосіб представляти необроблені значення з набору даних як навчальні значення векторного представлення ознак. Цей процес називається конструюванням ознак і є важливою частиною машинного навчання. Нижче наведено найпоширеніші методи конструювання ознак.

У цьому розділі йдеться про нормалізацію і групування. У наступному розділі Робота з категорійними даними розглядаються інші форми попередньої обробки даних, зокрема перетворення нечислових даних, наприклад рядків, у значення з рухомою комою.

У векторному представленні ознак кожне значення має бути числом із рухомою комою. Звісно, багато ознак – це рядки або інші нечислові значення, тому значна частина процесу конструювання ознак направлена на те, щоб представляти нечислові значення як числові. Це питання неодноразово розглядатиметься в наступних модулях.