УДК 81’33
Т.В. Бобкова
Київський національний лінгвістичний університет, м. Київ
УКРАЇНСЬКА КОРПУСНА ЛЕКСИКОГРАФІЯ:
ОСНОВНІЕТАПИ Й ТЕНДЕНЦІЇ РОЗВИТКУ
У статті встановлюється періодизація української корпусної лексикографії, окреслюється типологія докорпусних і корпусних словників. Досліджується сучасний стан наявних у вільному доступі українських корпусів.Здійснюється спроба визначення типологіїсучасних корпусних словників за методологією укладання.
Ключові слова: корпусна лексикографія,корпусна лінгвістика, лексикографічний корпус текстів, докорпуснийсловник, корпусний словник.
В статьеустанавливается периодизация украинской корпусной лексикографии, определяется типология докорпусных и корпусных словарей. Анализируется современное состояние представленных в свободном доступе украинских корпусов. Предпринята попытка типологии современных корпусных словарей на основе методологии составления.Ключевые слова: корпуснаялексикография,корпуснаялингвистика,лексикографический корпус текстов,докорпусныйсловарь, корпусный словарь.
The article deals with Ukrainian corpus lexicography periodization andthe main trends of pre-electronic, electroniccorpora. ThestateoftheartinContemporaryUkrainiancorpuslinguisticsisanalyzed. ThemaintrendsofUkrainian corpus lexicography isdefineddepending on the methodology. Keywords: corpus lexicography,corpuslinguistics, lexicographicalcorpus, pre-electroniccorpus, electroniccorpus.
Актуальність дослідження основних тенденцій розвитку української корпусної лексикографії пов’язана з активним впровадженням корпусного підходу в сучасному мовознавстві. Це вимагає встановлення періодизації української корпусної лексикографії і критичного осмислення накопиченого досвіду,а також вирішення низки теоретико-методологічних питань щодо визначення лексикографічного корпусу текстів, окресленнятипології сучасних українських корпусів текстів і корпусних словників.
Мета статті – дослідити етапи становлення, сучасний стан, основні тенденції розвитку української корпусної лексикографії з огляду на внесок у теорію й практику сучасного словникарства. Досягнення поставленої мети передбачає виконання таких завдань: 1) визначитиісторичні й концептуальні передумови становлення української корпусної лексикографії;2) дослідити еволюцію типології українського корпусного словника; 3) встановити етапий основні тенденції розвитку української корпусної лексикографії; 4) здійснити спробу типології сучасних корпусних словників на підставі методології укладання.
У сучасному мовознавстві корпусна лексикографія визначається як лінгвістична дисципліна, яка вивчає теорію і практику укладання корпусних словників. Корпусна лексикографія базується на понятті корпусу текстів, під яким розуміється електронний ресурс, що зазвичай містить величезну кількість слів з багатьох різних джерел [12, с. 270]. Отже, на відміну від традиційної лексикографії, лексикографічним або лексичним джерелом для укладання корпусного словника слугує електронний корпус текстів.Провідною ідеєю корпусного словникарства є, насамперед, твердження про можливість створеннясловника безпосередньо з тексту або колекції текстів.У цьому розумінні сучаснакорпусна лексикографія спирається на традиції текстоорієнтованих досліджень. На позначення словників, укладених на матеріалі тексту або корпусу текстів, в українській лінгвістиці традиційно вживається термін текстоорієнтовані [14, с. 14] або текстозорієнтовані [9, с. 75]. На відміну від системоорієнтованих словників, які описують систему мови, текстоорієнтовані відображають закономірності мовлення,функціональні властивості мовних одиниць. При цьому, за В. І. Перебийніс, функціонування розуміється не як виконувана одиницею функція, а як її поведінка в мовленні, тобто сукупність її характеристик в усному чи писемному тексті: частота, сполучуваність, місце в тексті, ступінь реалізації її системних характеристик (наприклад, словозмінних форм), комунікативне призначення, прагматичне чи емотивне навантаження, стилістична забарвленість та ін. [15, с. 138].Окреслені ознаки мовних одиниць залежать від характеру тексту, функціонального або авторського стилю.
На думку В. І. Перебийніс, до текстоорієнтованих словників відносять: 1) конкорданси; 2) словники мови автора; 3) словники цитат, крилатих виразів; 4) частотні словники, що фіксують наскільки поширеною є одиниця в тексті; 5) словопокажчики, які реєструють позицію та адресу одиниці в тексті [14, с. 52–76]. Відносна легкість опрацювання тексту йукладання сприяла появі перших посеред текстоорієнтованихчастотних словників.Перша в українському мовознавстві серія з п’яти частотних словників (художня проза, драма, поезія, наукові тексти, суспільно-політичні тексти) була укладена вручну на вибірці всього 50000 слововживань кожний у 1967 р.[14, с. 58].Отже, на етапі становлення корпусної лексикографії вукраїнському, як і загалом у радянському мовознавстві 1960-1970 рр. доелектронні, укладені вручнуколекції текстів розглядалися виключно як джерело досліджень з лінгвостатистики, зокрема з статистичної лексикографії. Незважаючи на суто корпусне підґрунтя лінгвостатистичних досліджень, слід відзначити пріоритет укладання частотних словників над розробкою електронних корпусів текстіву радянській і, зокрема українській лінгвістиці 1960-1970 рр.
Крім традиції текстоорієнтованих досліджень, до історичних передумов виникнення української корпусної лексикографії слід зарахувати потребу в автоматизаціїтрудомістких лексикографічнихпроцесів, таких, якукладання реєстру словника, лексичної картотеки й словникової статті. На думку Л. Засоріної, перші спроби автоматизації лексикографічного аналізу Р. Буза й А. Джіландамали значний вплив на розвиток прикладнихдосліджень[8, с. 149–150]у радянському мовознавстві в 1960 рр.Однак, відомо, що першийкорпусний словник–H. Kučera,W. N. Francis.ComputationalAnalysisofPresent-DayAmericanEnglish– було укладенов 1967 р. на матеріаліБраунівського корпусу текстів, використаногоЛ. Засоріною лише в якості моделі для наступного Частотного словарярусскогоязыка (1977 р.).Подібні тенденції спостерігаються і в українському мовознавстві. Незважаючи на відсутність сформованого корпусного напряму створеннямашинного фонду й моделювання мовних явищ за допомогою комп’ютера сприяли появірізноманітних частотних словників і конкордансів на основі повнотекстових баз даних[9, с. 95; 6, с. 36–37]. Зокрема традицію укладання текстоорієнтованих словників було продовжено виданням Частотного словника сучасної української художньої прози (1981 р.), створеного на вибірці текстів обсягом у 500 тис. слововживань, як і всі докорпусні словники, вручну [14, с. 58]. Період 1980–1990рр.характеризується розвитком широкомасштабних лінгвостатистичних досліджень, виконуваних вручну на великих обсягах текстового матеріалу. Безумовно, традиції текстоорієнтованихлінгвостатистичнихдосліджень 1960–1990 рр. вплинули на методику лексикографічного аналізу, однак в Україні розвиток власне корпусної лексикографії гальмувався через відсутність мотивації до побудови корпусів текстів і недостатню комп’ютеризацію лінгвістичних досліджень.Фактично,докорпуснідослідження, виконувані на доелектронних колекціях текстів, були поштовхом виключно для розвитку української статистичної лексикографії.
Процес формування концептуальних засадсучасної української корпусної лексикографії слід розглядати в аспекті розвитку мовознавчої думки другої половини ХХ століття. Теоретичною основою текстоорієнтованих досліджень і, зокрема корпусної лінгвістики,безперечно вважається структуралізм – система поглядів та методів дослідження, які базуються на розумінні мови як знакової системи з дискретними структурними елементами та використанні формальних прийомів опису [6, с. 14]. У цьому розумінні, поява першого електронного корпусу текстів (BrownСorpus, 1963 р.) мотивується домінуванням в північноамериканській традиціїдоктрини дескриптивної лінгвістики, “в якій більше, ніж у інших напрямах структуралізму, виявляється тенденція до використання ймовірнісних та статистичних методів дослідження” [6, c. 16].Власне терміносполука“корпусна лінгвістика” з’явилась значно пізніше у 1980 рр.: корпусні лінгвісти того часу називали себе структуралістами [12, с. 273] й наслідували принципово структурний підхід до вивчення мови [6, с. 14].
З іншого боку, на думку В. Тойберта, історично поява корпусної лінгвістики була відповіддю на необхідність вирішення лінгводидактичних проблем англійської мови як іноземної [20, р. 137–138]. З огляду на вище сказане можна стверджувати, щокорпусна лінгвістика мала чітко визначене місце в британському контексті прикладної лінгвістики з акцентом на викладання мови та укладання словників.Саме під впливом теоретико-методологічних засадбританського лексикографа Е. С. Хорнбі (OxfordAdvancedLearner’sDictionary, 1947 р.) в середині 1990 – на початку 2000 рр. в українському словникарстві з’являються праціз навчальної лексикографії, які суміщають риси корпусних і системоорієнтованих словників: Англо-український та українсько-англійський словники (1995-2005 рр.) [16, с. 106–107] іSłownik rosyjsko-ukraińsko-polski (2013 р.) [19]. Однак наведені вище навчальні словники можна лише умовно вважати корпусно-базованими, оскільки при їх укладанні корпусний підхід поєднано з інтуїтивним: зокрема, включення слів до загального реєстру словника здійснено на базі частотних характеристик, отриманих у результаті дослідження текстового ресурсу, а добір їхніх вживань [16, с. 106–107] або перекладів [19] базується на інтуїції укладачів.
Початок етапу власне корпусної лексикографії, базованої на електронних корпусах текстів, припадає в українському мовознавстві на перше десятиріччя ХХІ ст. При цьому перевага віддається укладанню корпусних частотних словників, а не побудові корпусів текстів. Подібні тенденції розвитку корпусної лексикографії є характерними й для інших країн пострадянського простору. Однакросійські лексикографи мали змогу користуватись укладеним шведськими русистами електронним Упсальським корпусом[13, с. 197]. Українська мова залишалась однією з небагатьох, що не мали репрезентованого у вільному доступі національного корпусу, його створення лише усвідомлювалось як нагальне завдання й перспектива розвитку української корпусної лексикографії. Отже, з одного боку, занепад кібернетики в СРСР завадив корпусній революції в українській лексикографії, а з іншого – зазначені особливості розвитку корпусної лінгвістики сприяли усвідомленню зарубіжного досвіду побудови сучасних електронних корпусів. На відміну від світової традиції в українській лінгвістиці поява праць, що обґрунтовують принципи побудови та застосування електронних корпусів [6; 9, с. 74–103] і корпусних словників [4] збігається за хронологією. Здійснене дослідження дозволяє виділити три етапирозвитку української корпусної лексикографії і встановити відповідні типи корпусних словників: 1. Статистична лексикографія(1960–1990 рр.) – докорпуснічастотні словники, конкорданси. 2. Докорпусна навчальна лексикографія (1990–2010 рр.)–докорпуснінавчальні словники. 3. Власне корпусна лексикографія (з 2004 р.) – корпусні словники.
На сьогодні, українська корпусна лінгвістика представлена у вільному для користувача доступі двома дослідницькими корпусами текстів української мови [22; 23], Навчальним корпусом англійських текстів–UkrainianCorpusofLearnerEnglish(UCLE) [24] і Багатомовним паралельним корпусом усного мовлення [25].Посеред представлених у вільному доступі текстових ресурсів новітній Корпус текстівукраїнської мови укладено колективом кафедри української мови та прикладної лінгвістики Донецького національного університету з метою вивчення проблеми граматичної службовості [3, c. 224]. У межах проекту реалізовано технічнійпрограмніаспектиреалізаціїкорпусу, розроблено морфорозмітку й метарозмітку, а також систему тегів для службових частин мови. На сьогодні Корпус текстів української мови загальним обсягом близько 5 млн. слововживаньфункціонує в тестовому режимі [3, с. 224–225].Найбільший за обсягом дослідницький Корпус сучасної української мови [23] побудовано як інформаційно-довідкову систему, призначену для з’ясування різних питань вивчення української мови. Корпус загальним обсягом у 13 млн. словоформ анотовано за якісними й кількісними ознаками різних мовних одиниць на рівні морфеміки, морфології й синтаксису, а також забезпечено пакетами програм для укладання електронних картотек і параметризованої бази даних, на базі корпусу розроблено серію корпусних словників[5, c. 46–47].
Навчальні корпуси представлені в українській корпусній лінгвістиці тестовою версією корпусу англійських текстів UCLE [24], створеною в лабораторії комп’ютерної лінгвістики Київського національного лінгвістичного університету. Загальний обсягтекстів студентських есе становить понад 180 тис. слововживань[12, c.30]. Програмне забезпечення навчального корпусу дозволяє будувати повні конкордансні списки та за ключовим словом, здійснювати пошук окремих слів і словосполучень, сортувати списки слів, відображати знайдені словоформи у необмеженому контексті, отримувати статистичну інформацію про окремі елементи корпусу. Багатомовні корпуси текстів в українській корпусній лінгвістиці представлені паралельним корпусом усного мовлення [25]. Корпус загальним обсягом біля 8 млн. розроблено в лабораторії комп’ютерної лінгвістики Київського національного лінгвістичного університету на базі субтитрів серіалів комедійного, драматичного й науково-популярного жанру. Аналізований корпус включає підкорпуси оригінальних текстів англійською мовою загальним обсягом біля 2 млн. та відповідних перекладів німецькою – 0,65млн., французькою – 0,8 млн., українською – 0,2 млн., російською – 1,1 млн., іспанською – 1,2 млн. і грецькою – 1,2 млн. Особливістю розробки даного паралельного корпусу текстів є вирішення проблеми автоматичного вирівнювання речень через використання параметру синхронізації часу появи субтитрів на екрані. Програмне забезпечення корпусу дозволяє здійснювати пошук перекладних еквівалентів слів і словосполучень у контексті речення, однак морфологічне анотування й модуль лематизації відсутні.
Доступність зазначених корпусів текстів і гнучкість програмного забезпечення дозволяють прогнозувати швидкий розвиток корпусної методології як “підґрунтя повного опису мовних явищ, нездійсненого в докорпусний період” [18, р. 117], у тому числі й лексикографічного аналізу.В даному дослідженні процес укладання корпусного словника розуміється як здійснення корпусного дослідження. Саме тому,в основу встановлення типології сучасних корпусних словників покладено триступеневу систематику корпусних досліджень на базі методології [18, р. 115]. За зазначеною систематикою розрізняють: а) корпусно-інформативні дослідження з використанням корпусу як колекції природномовних ілюстрацій на підтвердження заздалегідь сформульованих гіпотез дослідника; б) корпусно-базовані – зповним аналізом корпусу за кількісними та якісними параметрами на основі апріорно сформульованих теоретичних припущень; в) корпусно-керовані дослідження з повним генеруванням моделі або побудови теоріїмови з корпусу текстів. Використання окресленої систематики для встановлення типології корпусних словників свідчить про те, що на сьогодні українська корпусна лексикографія представлена всіма типами словників.
–Корпусно-інформативні словники: Тримовний тлумачний словник термінів з комп’ютерної лінгвістики з ілюстрацією вживання в англо-українсько-російському корпусі текстів [16; 25].
–Корпусно-базовані словники:Текстозорієнтований тезаурус лінгвістичних термінів з верифікацією на корпусі текстів з різних розділів лінгвістики [17, р. 70–71], Морфемні й словотвірні словникиКорпусу української мови [5, c. 47], Комп’ютерний фонд інновацій [10, с. 26], Словник часток [7, с. 21].
– Корпусно-керовані словники: 1) Частотні – Алфавітно-частотні словники, словник-конкорданс Корпусу української мови [26], Частотні словники паралельних текстів [1, с. 158]; 2) словники мови авторів – Словники поетів [5, с. 47], Частотный словарь избранной поэзии И. Бродского [2, с. 9]; 3) словники неолексем, синонімів, антонімів, фразеологізмівКорпусу української мови [5, c. 47]; 4) словники синтаксичних моделей керування[5, c. 47], актуальний англомовний словник українських есе[12, c.30].
Завдяки потужній лінгвостатистичній традиції в українському мовознавстві,значний доробок корпусно-керованих досліджень становлять частотні словники [1; 2; 26].Здійснене дослідження етапів становлення й основних тенденційрозвитку української корпусної лексикографії дозволяє дійти таких висновків:
- У сучасному мовознавстві корпусна лексикографія визначається як лінгвістична дисципліна, яка вивчає теорію і практику укладання корпусних словників.
- Корпусна лексикографія базується на понятті корпусу текстів, під яким розуміється електронний ресурс, використовуваний в якості лексикографічного або лексичного джерела для укладання певного словника.
- Передумови виникнення української корпусної лексикографії становлять традиції лінгвостатистичнихдосліджень й автоматизація лексикографічного аналізу.
- Концептуальною основою української корпусної лексикографії є структуралізм, зокрема, положення американської дескриптивної лінгвістики й теоретико-методологічні засади британської прикладної лінгвістики.
- Розвиток української корпусної лексикографії включає три етапи: статистичної лексикографії –докорпусних частотних словників і конкордансів, докорпусної навчальної лексикографії –докорпусних навчальних словників і власне корпусної лексикографії –корпусних словників.
- Основнимитенденціями розвитку української корпусної лексикографії є потужна традиціялінгвостатистичних досліджень, пріоритет укладання частотних словників над електронними корпусами текстів і традиція корпусно-базованої навчальної лексикографії.
- Встановлення типології корпусних словників на базі методології дослідження доводить:сучасна українська корпусна лексикографія представлена корпусно-інформативними, корпусно-базованими й корпусно-керованимисловниками.
Література
- Бобкова Т., Перебийніс В., Сорокін В. Частотні словники паралельних текстів / Т. Бобкова, В. Перебийніс, В. Сорокін// Людина. Комп’ютер. Комунікація : [зб. наук. праць]. – Львів : Вид. Національного університету “Львівська політехніка”, 2008. – С.158–160.
- Бобкова Т. Составление частотного словаряизбраннойпоэзииИосифаБродского / Т. Бобкова // Комп’ютерна лінгвістика : сучасне і майбутнє. Матеріали Міжнародної науково-практичної конференції. – К. : КНЛУ, 2012. – С. 9–13.
- Данилюк І. Корпус текстів для вивчення граматичної службовості / І. Данилюк // Лінгвістичні студії: [зб. наук. праць]. –Вип. 26. –Донецьк : ДонНУ, 2013.– С. 224–229.
- Дарчук Н. П. Структурно-статистическая база данныхсовременногоукраинскогоязыка на основечастотныхсловарей / Н. П. Дарчук // Слово и словарь = Vocabulumetvocabularium : [сб. науч. тр. по лексикографии]. – Гродно : ГрГУ, 2005. – С. 194–196.
- Дарчук Н. П. Дослідницький корпус української мови: основні засади і перспективи / Н. П. Дарчук // Вісник Київського національного університету ім. Тараса Шевченка. Серія: Літературознавство. Мовознавство. Фольклористика. –К. : ВПЦ “Київський університет”, 2010.– № 21.– С. 45–49.
- Демська-Кульчицька О. Основи національного корпусу української мови : [монографія] / Орися Демська-Кульчицька. – К. : Інститут української мови НАНУ, 2005. – 219 с.
- Загнітко А., Ситар Г., Данилюк І. Структура і модель бази даних “українські частки та їхні еквіваленти”/ А. Загнітко, Г. Ситар, І. Данилюк // Комп’ютерна лінгвістика : сучасне і майбутнє. Матеріали Міжнародної науково-практичної конференції. – К. : КНЛУ, 2012. – С. 21–22.
- Засорина Л. Н. Письмо в редакцию / Л. Н. Засорина // Вопросыязыкознания.– М. : Изд. “Наука”, 1968. – № 6. – С. 149–150.
- Карпіловська Є.А. Вступ до комп’ютерної лінгвістики : [підручник] / Євгенія Анатоліївна Карпіловська. – Донецьк : Юго-Восток, ЛТД, 2003. – 188с.
- Карпіловська Є. Комп’ютерне моделювання мовних змін : система мови і текст / Є. Карпіловська // Комп’ютерна лінгвістика : сучасне і майбутнє. Матеріали Міжнародної науково-практичної конференції. – К. : КНЛУ, 2012. – С. 25–26.
- Коломієць В., Котик С. Спеціальний навчальний корпус текстів UCLE: сучасний стан і перспективи використання / В. Коломієць, С. Котик // Комп’ютерна лінгвістика: сучасне і майбутнє. Матеріали Міжнародної науково-практичної конференції. – К. : КНЛУ, 2012. – С. 29–32.
- Лендау С. І. Словники : мистецтво та ремесло лексикографії / Сидні І. Лендау; [пер. з англ.]. – К. : К. І. С., 2012. – 480 с.
- Ляшевская О.Н., Плунгян В.А., Сичинава Д.В. Национальный корпус русскогоязыкакакинструмент лексикографа / О.Н. Ляшевская, В.А. Плунгян, Д.В. Сичинава // Слово и словарь = Vocabulumetvocabularium : [сб. науч. тр. по лексикографии]. – Гродно : ГрГУ, 2005. – С. 197–202.
- Перебийніс В. І., Сорокін В. М. Традиційна та комп’ютерна лексикографія : [навч. посібник] / Валентина ІсидорівнаПеребийніс, Віктор Михайлович Сорокін. – К. : Вид. Київського національного лінгвістичного університету, 2009. – 218 с.
- Перебийніс В.І. Системні та функціональні характеристики мовних одиниць/ В. І. Перебийніс// Вісник Харківського національного університету ім. В. Н. Каразіна.– Харків : Константа, 2004. – № 635.–С. 138–141.
- Bobkova T. etc. Corpus of computational linguistic texts / T. Bobkovaetc. //ComputerTreatmentofSlavicandEastEuropeanLanguages. – Bratislava : Tribun, 2009. – Р.35–40.
- Darchuk N. P., Sorokin V. M.Text-Oriented ThesaurusRetrievalSysytemforLinguistics / N. Darchuk, V. Sorokin // ComputerTreatmentofSlavicandEastEuropeanLanguages. – Bratislava : Tribun, 2009. – Р.65–77.
- Mukherjee J. Thestateoftheartincorpuslinguistics : three book-lengthperspectives / J. Mukherjee // EnglishLanguageandLinguistics. – Vol. 8.1. – Cambridge : CambridgeUniversityPres, 2003. – P. 103–119.
- Świkszcz-Kobyłecka M., Bobkowa T. Słownik rosyjsko-ukraińsko-polski / Marioła Świkszcz-Kobyłecka, Tatiana Bobkowa. – Toruń-Kijów : MARTOM, 2013. – 73 s.
- Teubert W. Linguistiquedecorpus : unalternative / W. Teubert // Semen.Critical DiscourseAnalysis I.Lesnotionsdecontexteetd’acteurssociaux / par A. Petitclerc, Ph. Schepens. – Vol. 27. – PressesUniversitairesdeFrancheComté, 2009. – P. 130–152.
Джерела ілюстративного матеріалу
- Багатомовний паралельний корпус усного мовлення. – К. : КНЛУ, 2010. – Режим доступу : http://www.complinguide.com.ua/Corpus.aspx
- Корпус текстів української мови кафедри української мови та прикладної лінгвістикиДонецького національного університету. – Режим доступу :http://corpora.pp.ua/bonito/
- Корпус текстів української мови. – Режим доступу : http://www.mova.info/corpus.aspx?l1=209
- Навчальний корпус текстів UCLE. –Режим доступу :http://www.complinguide.com.ua/Ucle_index.aspx
- Тримовний тлумачний словник термінів з комп’ютерної лінгвістики–Режим доступу :http://www.complinguide.com.ua/Glossary.aspx
- Частотні словники. – К. – Режим доступу :http://www.mova.info/Page.aspx?l1=57