Változószelekciós algoritmusok vizsgálata általánosított additív modellekben – Egy új, hibrid metaheurisztika elemzése

Kovács, László (2022) Változószelekciós algoritmusok vizsgálata általánosított additív modellekben – Egy új, hibrid metaheurisztika elemzése. PhD thesis, Budapesti Corvinus Egyetem, Közgazdasági és Gazdaságinformatikai Doktori Iskola. DOI https://doi.org/10.14267/phd.2022058

[img]
Preview
PDF : (az értekezés)
2MB
[img]
Preview
PDF : (az értekezés tézisei magyar nyelven)
450kB
[img]
Preview
PDF : (draft in English)
397kB

Official URL: https://doi.org/10.14267/phd.2022058

Abstract

A felügyelt gépi tanulás során célunk, hogy egy jól definiált eredményváltozóra minél nagyobb pontosságú becslést adjunk bizonyos magyarázóváltozók értékének ismeretében. Napjainkban a feladat számtalan összetett algoritmus segítségével megoldható. Pl. mélytanuló neurális hálózatok, véletlen erdők, támaszvektor – gépek stb. Azonban egyre több szerző, pl. Molnar (2020) és Du et al. (2019) hívja fel a figyelmet arra, hogy a legpontosabb becslést szolgáltató modellekben a használt magyarázóváltozók hatásai az eredményváltozóra nehezen, vagy egyáltalán nem visszafejthetők. Viszont, bizonyos gyakorlati szituációkban a gépi tanulás legfontosabb eredménye nem feltétlenül a minél pontosabb becslés elkészítése, hanem az egyes magyarázóváltozók hatásának megállapítása. Például, egy banknak egyértelműen meg kell indokolnia, hogy mi alapján utasít el egy hitelkérelmet. Ilyen esetekben nem előre jelző, hanem magyarázó modellek építése az elemző célja. Napjaink „big data” környezetében, amikor egy adott becslési feladathoz rengeteg potenciális magyarázóváltozó könnyen az elemző rendelkezésére áll, még egy egyszerű lineáris regressziós modell alkalmazása esetén is problémás lehet a magyarázóváltozók hatásainak megállapítása. Molnar (2020) és James et al. (2013) egyik javaslata a probléma áthidalására, és a különböző felügyelt tanulási modellek értelmezhetővé tételére a változószelekció. Hall (1999) szerint a változószelekció legfontosabb alapelve, hogy a kiválasztott magyarázóváltozók szorosan korreláljanak a becsülendő eredményváltozóval, de egymáshoz képest legyenek függetlenek. Hall (1999) javaslata (Correlation based Feature Selection, CFS) egy legjobb részhalmaz elvű algoritmus, ahol a célfüggvény, azokat a magyarázóváltozókat preferálja, amik szorosan korrelálnak az eredményváltozóval, de más magyarázóváltozókkal páronként nem korrelálnak káros mértékben. A CFS algoritmus elvét nem-lineáris esetekre kiterjesztő megoldásokat dolgozott ki Song et al. (2012) és Climente-González et al. (2019) is. Mindkét tanulmány javaslata azonban továbbra is csak a magyarázóváltozók páronkénti függetlenségét ellenőrzi a változószelekció során. Viszont, a magyarázóváltozók függetlenségét az is sértheti, ha egy változó kifejezhető a többi változó többváltozós függvényével. Korábbi munkáinkban (Láng et al. (2017) és Kovács (2019)) egy hibrid genetikus-harmónia kereső algoritmust (továbbiakban HGHK algoritmus) javaslunk a változószelekciós feladat megoldására lineáris modellekben. Az algoritmus a szelekciós folyamat során nem csak a változók közti páronkénti káros korrelációkra szűr. A HGHK algoritmus segítségével olyan regressziós modellek építhetők, amelyek becslési pontosságban nem maradnak el jelentősen az egyéb algoritmusok segítségével épített modellektől, ám azokhoz képest lényegesen kevesebb magyarázóváltozó használnak ennek eléréséhez. Az ilyen „extrém módon” takarékos modellek magukban hordozzák a kihagyott változók miatti torzítás veszélyét, de segíthetnek az elemzőnek azonosítani az eredményváltozót alakító legfontosabb független hatásokat. A módszer előnye a hagyományos dimenziócsökkentési eljárások alkalmazásával szemben, hogy a végső modellben konkrétan megnevezhető változók szerepelnek, adott esetben nehezen értelmezhető faktorok helyett. Jelen értekezésben kiterjesztjük a HGHK algoritmust a nem-lineáris modellek körében végzett változószelekcióra is. Ehhez az általánosított additív modellek (továbbiakban GAM a Generalized Additive Model angol kifejezésből) keretrendszerét alkalmazzuk. Ugyanis, James et al. (2013) szerint GAM-ok esetében magyarázóváltozók marginális hatásai az eredményváltozóra meghatározhatók (ellenben a mélytanuló neurális hálózatokkal és ensemble modellekkel), de nem köti az elemzőt egy előre definiált lineáris, logaritmikus, négyzetes vagy egyéb függvényforma (mint a klasszikus lineáris regresszióban).

Item Type:Thesis (PhD thesis)
Supervisor:Láng Blanka Klára, Racskó Péter
Uncontrolled Keywords:Változószelekciós algoritmus, metaheurisztika
Subjects:Computer science
ID Code:1195
Date:26 September 2022
DOI:https://doi.org/10.14267/phd.2022058
Deposited On:26 Jan 2022 07:29
Last Modified:28 Nov 2022 10:05

Repository Staff Only: item control page

Downloads

Downloads per month over past two year

View more statistics