«Ինդեքս»–ի խմբագրումների տարբերություն
Content deleted Content added
չNo edit summary |
|||
Տող 1.
{{unreferenced}}
{{wikify}}
== '''Ինդեքս (փնտրման համակարգ)''' ==
Տող 49 ⟶ 52՝
Ի տարբերություն գրաճանաչ մարդ արարածների, համակարգիչները չեն հասկանում բնական լեզվի կառուցվածքը և չեն կարող ավտոմատ կերպով ճանաչել բառեր ու նախադասություններ: Համակարգչի համար` փաստաթուղթը լոկ բայթերի շարք է: Համակարգիչները “չգիտեն”, որ “սփեյս” (space) նիշը փաստաթղթում բառերն իրարից առանձնացնողի դերն ունի: Այդ իսկ պատճառով, մարդիկ պետք է համակարգչին ծրագրավորեն տարբերակելու` թե ինչ է նշանակում առանձին բառ, ըստ համապատասխան նշանագրի: Այսպիսի ծրագիրը սովորաբար կոչվում է նշանագրող (տոկենիզացնող ), վերլուծող կամ լեզվա-վերլուծող: Շատ փնտրման համակարգեր, ինչպես նաև բնական լեզուների մշակման այլ ծրագրեր, ներմուծում են վերլուծելու մասնագիտացված ծրագրեր, ինչպիսիք են` YACC-ն (սինտաքսիկ վերլուծողների գեներատոր) կամ LEX-ը:
Նշանագրման ընթացքում վերլուծողը գտնում է այն նշանների շարքերը, որոնք ներկայացնում են բառեր և այնպիսի այլ բաղադրիչներ, ինչպիսիք են թվագրերով ներկայացված շեշտը և նման այլք, որոնց մի մասն էլ տպագրման չենթարկվող նշաններ են: Վերլուծողը կարող է նաև գտնել այնպիսի միավորներ, ինչպիսիք են էլեկտրոնային փոստը, հեռախոսահամարները և համացանցային կայքերի հասցեները: Յուրաքանչյուր նշանագիրը իդենտիֆիկացնելիս սովորաբար մի քանի բնութագրիչներ են պահպանվում, օրինակ` նշանագրի ռեժիմը (վերին ռեժիմ, ստորին ռեժիմ, խառը ռեժիմ, պահանջվող ռեժիմ), լեզուն կամ կոդավորումը, խոսքի մասերը (օրինակ` “գոյական” կամ “բայ”), տեղադիրքը, նախադասության համարը, նախադասության տեղադիրքը, երկարությունն ու տողի համարը:
[[Կատեգորիա:Ինֆորմատիկա]]
|