intézkedés a távolság

Hasonlóságot vagy különbség a címkézési tárgyak határozza meg attól függően a kiválasztott mutató távolság van közöttük. Ha minden egyes objektum által leírt tulajdonságok (attribútumok), akkor lehet képviseli, mint egy pont n-dimenziós tér, és a hasonlóság a többi tárgy kerül meghatározásra, mint a megfelelő távolság. Amikor osztályozási használnak különböző intézkedések közötti távolságok tárgyakat.
1. euklideszi távolság
Ez talán a leggyakrabban használt mérési távolság. Ez a geometriai távolságot a többdimenziós térben, és a következőképpen számítjuk ki:
- - közötti távolság a tárgy és a;
- - érték tulajdonság tárgy;
- - Az érték az objektum-tulajdonság.
Természetes, a geometriai szempontból, az euklideszi távolságot intézkedés értelmetlen, ha a jelek különféle egységekben mérik. A helyzet orvoslása érdekében folyamodott jegyrendszer az egyes funkciók. Használata az euklideszi távolságot indokolt az alábbi esetekben:
- tulajdonságok (attribútumok) a tárgy homogén fizikai értelemben és egyformán fontosak az osztályozás;
- tulajdonságtér egybeesik a geometriai térben.
2. A tér euklideszi távolság
Ez a távolság az intézkedés az azokban az esetekben, amikor szükség van rá, hogy nagyobb értéket távolabb egymástól szervezetek. Ez a távolság a következőképpen számítjuk ki:
3. A súlyozott euklideszi távolság
Ezt alkalmazzák olyan esetekben, amikor az egyes -properties sikerült tulajdonítani néhány „tömeg”, arányosan a jelentőséget a funkció az osztályozási probléma:
A tömeg meghatározása általában társított további tanulmányok, mint például a szervezet szakértői felmérés és feldolgozása a véleményüket.
4. Hamming-távolság
Szintén ez az úgynevezett Manhattan city-block távolság vagy taxi geometria. Ez a távolság a különbség a koordinátákat. A legtöbb esetben ez a távolság intézkedés következtében ugyanazt az eredményt, mint a hagyományos euklideszi távolságot. Megjegyzendő azonban, hogy ez a hatásának mérésére egyedi nagy különbségek (emisszió) csökken (mivel azok nem a négyzeten). Hamming-távolság számítjuk a következő képlet szerint:
5. Chebyshev távolság
Értékét veszi maximális modulusa közötti különbség értéke a vonatkozó tulajdonságok (attribútumok) közé tartoznak
6. százalékos nézeteltérés
Például az első jele a tárgy - a padló, a második - a kor, a harmadik - a munkavégzés helye. Ábrázoljuk az értékek a tulajdonságok (jellemzők) az objektum, mint egy vektor a értékek. Az első vektor - (férfi, 20 éves, tanító), a második vektor - (férfi, 28 éves, manager). Százalékos nézeteltérés 2/3. Ezek a vektorok különböznek 66,6%.
Az intézkedések megválasztása távolságok és mérleg osztályozására tulajdonságok - egy nagyon fontos szakasz, mivel ezek az eljárások változnak az összetételét és mennyiségét generált osztályok, valamint a hasonlóság mértéke a tárgyak osztályokba.