“Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми”

Скачати
Документи
1   2

.(1) Н(2)| .(3)И(4)| .(5)Голубков(6) исследовал(7) еще(8) двадцать(9) шесть(10) видов(11) ||| ,(12) так(13) как(14) его(15) первый(16) ||| и(17) второй(18) опыты(19) дали(20) результаты(21) ||| ,(22) представленные(23) на(24) рис(25)| .(26) 6(27) ||| |.


Тут 27 гіпотетичних словоформ (пронумеровані), 4 гіпотетичних сегмента (відокремлені |||), 4 гіпотетичних фрази (відокремлені |), 17 приведених словоформ (підкреслені), 3 приведених сегмента (1 – до так как, 2 – до представленные, 3 – до кінця), 1 приведена фраза (все речення).

Необхідні відомості про текстові об’єкти представляються у вигляді інформацій. Інформація - послідовність ознак (граф), що приймають певне значення.

Більшість ознак, що утворюють інформацію, є синтаксичними розрізнюваними ознаками словоформ та сегментів.

Увесь процес аналізу зводиться послідовно на декількох рівнях. Спочатку з окремо взятих гіпотетичних словоформ, точніше з інформацій до морф, на які ці словоформи розбиваються, виводиться інформація до словоформ, потім з інформацій до словоформ виводиться інформація до гіпотетичних сегментів; і нарешті, з інформацій до гіпотетичних сегментів виводиться синтаксична структура фрази. Одночасно гіпотетичні об’єкти перероблюються на приведені.

Відповідно, аналіз підрозділяється на формологічний (розбір окремих словоформ і отримання інформацій до них) та синтаксичний (все інше). Синтаксичний аналіз, в свою чергу, поділяється на внутрішньосегментний (розбір окремих гіпотетичних сегментів і отримання інформацій до них) та міжсегментний (розбір всієї фрази в цілому).

В межах гіпотетичних сегментів багато зв’язків між словоформами не можуть бути встановлені зовсім або встановлюються неправильно, тому в інформації до сегменту застосовуються  - ознаки (вказівки про невстановлені, але передбачувані зв’язки) та  - ознаки (вказівки про можливі помилки у встановлених зв’язках). Ці ознаки використовуються при міжсегментному аналізі.

Особливо треба відзначити  - ознаки, які виробляються на всіх етапах аналізу і спочатку входять в інформації до сегментів, а звідти – в інформації до фраз.  - ознаки – це вказівки про синтаксичні неоднозначності, які не можуть бути розв’язані навіть в межах фрази, без залучення загального смислу тексту.

Для пошуку одиниць синтаксичного аналізу – змістовних сполучень – всі вони оформлюються у вигляді шаблонних пошукових правил – конфігурацій. Конфігурації складаються з 5 частин: 1) містить порядковий номер конфігурації, в 2) записано перший і другий члени конфігурації, що задають члени змістовного сполучення, 3) відведена для допоміжної інформації, в 4) знаходиться основна інформація (назва стандартної операції, що виконує переробку інформацій та її параметри), 5) відведена для “переадресації”, тут записуються номери конфігурацій, до яких треба переходити у певних випадках.

Конфігурації зібрані в таблицю, в своєрідний “синтаксичний словник”. Окремо від таблиці існує “власне алгоритм” – інструкція по використанню словника. Власне алгоритм синтаксичного аналізу записується у вигляді набору стандартних алгоритмічних операторів.

Синтаксичний аналіз організований циклічно. При внутрішньосегментному аналізі кожний гіпотетичний сегмент оброблюється 5 раз. Для міжсегментного аналізу також пропонується 5 циклів.

“Власне алгоритм” та будова таблиці конфігурацій не залежать від конкретної мови.

Портфель учня
© ruh.znaimo.com.ua
При копіюванні вкажіть посилання.
звернутися до адміністрації