dokumentum lekérése
dokumentum lekérése
- Wikipédia, a szabad enciklopédia
Információ visszakeresés (Eng információszerzés.) - a folyamat keres strukturálatlan dokumentumok benyújtására és a tudomány is.
Információ keresés mint folyamat
Információ keresése a folyamat azonosítása egy sor dokumentumot (szövegek) mindazoknak, akik elkötelezett a megadott téma (alany), megfelel egy előre meghatározott keresési feltétel (query) vagy tartalmazza a szükséges (ez megfelel az információs igényeit) a tényeket. Tájékoztató adatok.
A keresési folyamat magában foglalja egy sor művelet, amelynek célja gyűjtése, feldolgozása és a szükséges információk, hogy az érdekelt feleket.
Általában információk keresése oszlik négy szakaszból áll:
- meghatározása (specifikáció) az információs igények és a készítmény egy információkérés;
- meghatározásnak lehetséges adattömbökkel tartók (források);
- információ kinyerése az azonosított adatállományok;
- megismertetése az információs és értékelése a keresési eredményeket.
Teljes szöveg keresés - a teljes tartalmát a dokumentumot. Példa teljes szöveges keresés - bármely internetes keresőprogram, mint a www.yandex.ru. www.google.com. Jellemzően teljes szövegű keresés, hogy gyorsítsák keresések segítségével előre elkészített indexek. A leggyakoribb technológia teljes szöveges keresési indexek megfordítjuk indexek.
A keresési folyamat iratok tisztán formai okok miatt a kérelemben meghatározott.
A végrehajtás a következő feltételek szükségesek:
A keresési folyamat dokumentumokat azok tartalmát.
Feltételek:
- Fordítása dokumentumok tartalmának és lekérdezések természetes nyelvi információszerzés és összeállításáról keresési lekérdezést és a dokumentumokhoz.
- Összeállítása a keresési leírás, amely meghatározza a további keresési feltételt.
A keresési folyamat a tároló adatkezelő rendszer elsődleges és másodlagos dokumentumok dokumentumok az adatbázisban a megfelelő adatokat a felhasználó kérésére.
Kétféle dokumentumfilm keresés:
- Könyvtár megtalálására irányuló elsődleges dokumentumokat.
- Bibliográfiai megtalálására irányuló tájékoztatást a benyújtott dokumentumok formájában bibliográfiai rekordok.
A folyamat a tényállás megállapításakor megfelelő információigénylésben.
Azáltal factographical adatok információt tartalmaz kinyert dokumentumok, mind az elsődleges és a másodlagos, és közvetlenül kapjuk a forrástól azok eredetétől.
Kétféle:
- Dokumentum- és tényszerű, hogy a dokumentumok kereséséhez szöveg töredékek, amelyek tartalmazzák a tényeket.
- Tény (a tények leírása), amely magában foglalja az új ténybeli leírások a keresési folyamat, amelyet a logikai feldolgozását talált tényszerű információkat.
Információszerzés, mint tudomány
Információ keresés - a folyamat azonosítása tömb rekordok információ kielégíti egy előre meghatározott keresési feltételt, vagy kérheti.
Van némi zavart a fogalmak adatok visszakeresése, a dokumentum kereső, információszerzés és szöveges keresést. Azonban minden ilyen terület van saját kutatási módszerek, a gyakorlati tapasztalat és az irodalom.
A kérelmet és a kérelem tárgya
Apropó IP rendszerek kifejezéseket használni lekérdezés és a lekérdezés objektum.
Érdeklődés - egy formalizált kifejezési módja az információs igényeket a felhasználó a rendszer. Ahhoz, hogy kifejezze az információs igényeit a nyelv által használt keresési lekérdezéseket. szintaxis változik rendszerről rendszerre. Ezen felül egy speciális lekérdező nyelvet. modern keresők lehetővé teszi, hogy adja meg a kérelem a természetes nyelvben.
A kérelem tárgya - egy információs egység, amely tárolja az automatizált keresés rendszer. Annak ellenére, hogy a leggyakoribb objektum kérés egy szöveges dokumentum. nincsenek alapvető korlátai. Különösen kereshetünk képeket, zenéket és más multimédia információk. A folyamat a belépő a keresési tárgyakat az IPA nevű indexelés. Nem mindig az IRS tartja pontos másolata az objektum, gyakran ahelyett, hogy tárolják helyettesítheti.
információszerzés feladatok
Központi IP feladat -, hogy segítse a felhasználót, hogy megfeleljen az információs igényeket. Tehát hogyan kell leírni az információt a felhasználó igényeit technikailag nehéz, ezeket a készítményeket, mint egy bizonyos lekérdezés egy kulcsszót írja le, amit a felhasználó keres.
Klasszikus IP feladat, ami kezdett kialakulni ezen a területen - a dokumentumok keresését, amelyek eleget tesznek a kérésnek, a statikus dokumentum gyűjtemény. De a lista IP feladatok folyamatosan bővül, és már tartalmazza:
Számos módja van, hogy értékelje, hogy mennyire jól a talált dokumentumok szerint az IRS, a program kéri. Sajnos, a koncepció a mértéke a kérés teljesítése, vagy más szavakkal jelentősége. Ez egy szubjektív és egy bizonyos fokú megfelelés függ az egyén, az eredmények értékelése a lekérdezés.
Definíció szerint a számának aránya a megfelelő dokumentumokat talált az IRS, az összes talált dokumentumok:
,
ahol Drel - egy sor releváns dokumentumok az adatbázisban, és Dretr - egy sor dokumentumot talált a rendszer. Az eredmények szerint a tanulmányok értékelésének relevanciája a fő mutatók a magyar és a nemzetközi keresőkben.
Az arány a számát talált vonatkozó dokumentumokat, az összes releváns dokumentumok az adatbázisban:
,
ahol Drel - egy sor releváns dokumentumok az adatbázisban, és Dretr - egy sor dokumentumot talált a rendszer.
Veszteség jellemzi a valószínűsége, hogy egy nem megfelelő források és aránya határozza meg a dokumentumok száma talált irreleváns az összes releváns dokumentumot az adatbázisban:
,
ahol Dnrel - ez meg nem releváns dokumentumokat az adatbázisban, és Dretr - egy sor dokumentumot talált a rendszer.
F-mérték (F-mérték, Van Rizbergena intézkedés)
Néha hasznos, hogy összekapcsolják a pontosságát és teljességét egy átlagolt értéket. Erre a célra a számtani átlag nem alkalmas például egy kereső, visszatérő elegendő általában minden irat teljes legyen egyenlő egy közeli nullára pontosan, és a számtani átlaga a pontosságát és teljességét nem kevesebb, mint 1/2. A harmonikus közép nincs ilyen hátrány, mert a nagy különbség átlagolt értékei megközelítették a minimális őket.
Ezért egy jó intézkedés a közös értékelése a pontosságát és teljességét egy F-mérték. amely úgy definiálható, mint egy súlyozott harmonikus közép pontosságát és teljességét P R:
Általában F projektet átfogó írva
Amikor α = 1/2 vagy β = 1 F-intézkedés egyforma súllyal a pontosságát és teljességét az úgynevezett kiegyensúlyozott vagy F1 projektet átfogó (hozott jelzi az érték β a index), a kifejezés a egyszerűsíti
Egy kiegyensúlyozott F-intézkedés nem szükséges: 0 <β <1 предпочтение отдаётся точности, а при β> 1 nagy súlyt kap a teljességet.