Читати 2.0: комп'ютери вчаться добувати з тексту сенс

Тепер, коли ми влаштували в своїх мережах без п'яти хвилин інформаційний хаос, давайте спробуємо переробити його в що-небудь корисне, - пропонують комп'ютерні лінгвісти. У експоненціально зростаючої звалищі слів, яку представляє собою інтернет, закопані інформаційні скарби. Вони дістаються тому, хто вміє шукати.

Чому потрібні нові підходи до аналізу великих даних. © ABBYY.

Заступник директора по розробці технологій компанії ABBYY Тетяна Даніелян виступає на конференції з комп'ютерної лінгвістики «Діалог» (2014 рік).

Анатолій Старостін, викладач комп'ютерної лінгвістики в МФТІ: про інтелектуальний продукт - на пальцях. Конференція з комп'ютерної лінгвістики «Діалог», 2014 рік.

Сергій Шаров, асоційований професор в університеті Лідса (Велика Британія): «Є питання до доповідача».

Популярне мережеве розвага «хмара слів» дозволяє наочно побачити самі частотні слова в конкретному тексті. Перше «хмара» сформовано на основі цієї статті (відібрані 45 повнозначних слів довжиною від 5 букв).

Наука і життя // Ілюстрації

<

>

Для людини, залазить в інтернет, щоб купити квиток на поїзд або подивитися, за ким замужем актриса N, мережа - предмет повсякденного зручності. Але для ідеологічних і силових структур, для політиків і великих корпорацій інформаційний потік одночасно і поле бою, і знаряддя конкурентної боротьби. Потік весь час зростає пропорційно кількості залучених у виробництво інформації людей, тому комп'ютерні лінгвісти кажуть про перспективу інформаційного хаосу приблизно з тими ж інтонаціями, з якими екологи - про глобальне потепління.

Однак, на відміну від глобального потепління, проблема інформаційного хаосу сама містить в собі своє рішення: якщо оцифрованого тексту стало занадто багато, чому б не делегувати наведення порядку комп'ютерів? Адже оцифрований - значить, доступний для автоматичної обробки.

Пошуковики вирішують проблему лише частково. Будь-який користувач знає, скільки часу займає пошук за ключовим словом. Добре, якщо ми шукаємо щось, що нам хочуть продати: у цьому випадку завдання «знайтися» бере на себе продавець. А якщо нам потрібно щось не має комерційного сенсу? А якщо не «щось» - а все за деякою темі, тому що належить приймати рішення з дуже високою ціною?

Справа за малим: треба навчити програму не просто реагувати на ключове слово, як це роблять пошукові системи, а витягувати зі сказаного сенс.

«Витягуємо суті оптом і в роздріб»

Хто хоч раз здавав якийсь міжнародний іспит з іноземної мови, знає, що інформація влаштована складно і нелінійно, а прочитати текст (в людському сенсі слова) далеко не те ж саме, що отримати від нього сенс. Тексти, запропоновані на таких іспитах, часто свідомо занадто об'ємні, щоб встигнути і дочитати їх до кінця, і відповісти на питання. Західна школа, усвідомлюючи, з якими колосальними інформаційним потоком доводиться мати справу професіоналу, досить рано починає вчити школяра трьом типам читання: не тільки звичайному - докладного, нічого не упускає, але і скануючого (scanning) і суммирующему (skimming) - тим, що в російською традицією називається «читати по діагоналі». Завдання скануючого читання - знайти в тексті саме ті «місця», які є актуальними для поточного завдання; підсумовує - швидко, в один погляд, зрозуміти суть сказаного в статті, главі або розділі в цілому.

Від машинної обробки сирого інформаційного потоку фахівці хочуть домогтися приблизно такого ж - функціонального результату. Але якщо вчитися «підсумовувати» - витягати і узагальнювати суть сказаного - зрозуміла постановка задачі (це і не кожна людина вміє), то простий пошук потрібного, наприклад документа в корпоративній мережі, здається не таким вже актуальним. Невже при наявності сьогоднішніх пошукових систем важко знайти потрібний папірець на сервері?

- Це величезна проблема, - переконана Тетяна Даніелян, заступник директора по розробці технологій компанії ABBYY, відомої своїми інтелектуальними системами розпізнавання і обробки тексту і безпрецедентною для комерційної компанії залученістю в теоретичну лінгвістику на всіх російських майданчиках, де її творять всерйоз. - Швидкий пошук - одна з найактуальніших завдань. За всіма дослідженнями і в США і в світі співробітники компаній витрачають на пошуки потрібних документів більше 50% часу. Людина пам'ятає, що відсилав якийсь документ, або передбачає, що повинен був його отримати, або, знаючи свою компанію, розуміє, що такий документ обов'язково вже існує, - але як сформулювати пошуковий запит? Цього ніхто толком не знає, тому люди витрачають багато часу, щоб придумати, як скласти запит, щоб вдалося знайти саме цей документ (повнота пошуку) і не отримати при цьому занадто багато непотрібних документів (точність). У гіршому випадку співробітник впадає у відчай і починає створювати шуканий документ сам: дублює вже кимось зроблене.

Здавалося б - дрібниця, але якщо підсумувати цей фактично викинутий в кошик людський ресурс, масштаб втрат вийде індустріальним.

Щоб шукати швидше і точніше, необхідно внести в пошук елемент «розуму».

- Стандартна задача, яку зараз намагаються все вирішувати, навіть за межами комп'ютерної лінгвістики, називається Named Entity Recognition, розпізнавання, або витяг іменованих сутностей, - пояснює Тетяна Даніелян. - Приклади іменованих сутностей - це персони, організації, географічні місця, гроші, дати, час і так далі. Це завдання більш-менш вирішена. Однак, звичайно, нікому не цікаво витягувати суті просто так. Найчастіше нам потрібно знати: а що з цією сутністю відбувається, наприклад: «Хто, де, коли, з ким що робив і що планує робити далі?». Всі хочуть отримувати від величезного потоку текстів події і зв'язку, які співвіднесені з сутностями.

Одного «вилучення сутностей» досить, щоб відчути себе на симпозіумі лапутянскіх мудреців, а лічилка з дитячої гри «в нісенітницю» (хто, з ким, де, коли ...) це відчуття підсилює. Значна частка чарівності комп'ютерної лінгвістики в тому, що вона народжена на стику, з одного боку, граничної прагматики, а з іншого - гуманітарної науки, тобто найменш суворої області людського знання. «Видобувні суті» не єдиний приклад того, як умоглядна, интроспективная, практично невалідіруемая сітка «філософських категорій» перетворюється в руках комп'ютерної лінгвістики в працюючий інструмент. Якщо для цього треба дещо підправити і спростити, так тому і бути, головне, щоб працювало.

- Факти, події, зв'язку - це будь-яка інформація, яка характеризує сутність і має протяжність в часі і просторі, - пояснює Тетяна. - Наприклад, наявність або відсутність, народження або смерть. Більш складні факти (події) - зустріч між двома особами, або коли один купив, а інший продав, або протиправна дія і судове рішення; а також хто кому ким доводиться (зв'язку). Все це не так просто витягти, бо одна і та ж ситуація може описуватися різними текстами: наприклад, «Вася вкрав у Петі гаманець», «Василь витягнув у Петра Івановича гаманець» і «Гроші пропали з кишені П. Іванова». Завдання в тому, щоб програма побачила в цьому випадку одна подія, а не три різних.

Інженерія і наука привчили нас до того, що машини у багатьох відношеннях «розумніші» нас: безпомилковіше вважають, краще моделюють, інформативніше «показують» (якщо це, наприклад, комп'ютерний томограф або хороша цифрова фотокамера), швидше обмінюються інформацією, краще витягають закономірності. .. У комп'ютерній лінгвістиці справа йде поки навпаки: тому, що ми розуміємо відразу, без обдумування, машину доводиться навчати - витонченими способами і з далеким від 100% результатом.

«Я викликав лікаря додому, і він прийшов» - для людини очевидно, що прийшов не будинок, а доктор, а як повинна про це дізнатися машина? «Маша замовила морозиво, Марина - кава». Що сталося між Мариною і кави? Лінгвісти любовно колекціонують приклади лінгвістичної неоднозначності і демонструють їх один одному на професійних конференціях: Ці типи стали є в ливарному цеху - якісь типи дістали в цеху бутерброди, або мова йде про промислове ресурсі? Він бачив їх сім'ю своїми очима - Семіглазов спостерігач? Цікаво писати просто - де межа між тим, про що йдеться, і тим, що говориться: писати просто - це цікава задача або писати цікаво під силу будь-якому? З неоднозначністю на кшталт «типи стали є ...» або «бачив сім'ю ...» сучасні машинні перекладачі, «обтяжені» деякими знаннями про світ, вже непогано справляються. Але про численні «це» і «свої» машина, як правило, болісно спотикається: з чим зі згаданого раніше їх співвіднести?

До комп'ютера слово «розуміння» може бути застосовано умовно. Машинне «читання» - це здатність з деяким ступенем точності «зрозуміти сенс»: йде в тексті мова про одне й те ж або про різні речі? Якщо про різні, то про схожих чи ні? Якщо схожих, то до якої міри? Що говориться в текстах про конкретну особу або марці - чи викликає вона у людей емоції (а в ідеалі ще й які)? Добре чи погано ставляться до неї творці текстів і в яких частках? Як змінюється динаміка цього спектра відносин від тижня до тижня, від місця до місця, від однієї вікової групи до іншої? Тримати армію людей, моніторять, що в інтернеті говорять про X в реальному часі, дуже затратно, до того ж весь інтернет не промоніторити. Репрезентативне соціологічне дослідження - справа не швидка і має свої похибки. А знати хочеться; як жартують деякі розробники, ще й з адресами незадоволених (для розсилки рекламних пропозицій, зрозуміло, тому що Х - це комерційний бренд - а ви що подумали?). Це цікавість можна задовольняти швидше і надійніше, якщо формалізувати зміст так, щоб він став «видимим» для машини: розкласти його на регулярні компоненти і навчити систему їх розпізнавати.

Граф, який побудував Джек

- У нас в ABBYY є три одиниці сенсу, пов'язаного з конкретним значенням, - пояснює Тетяна Даніелян. - Перша - загальне поняття, до якого ми підключаємо конкретне значення. Ми створили універсальну семантичну ієрархію - свого роду ветвящееся «дерево», на якому відбувається успадкування значень від смислових «батьків» до «нащадків»: від загальних категорій до більш детальним. «Листочки» цього дерева може бути, наприклад, «стіл», а «гілкою», вузлом, від якого значення «стіл» успадковує смислові ознаки, - «меблі», вона в свою чергу буде входити в більш загальну категорію «предмет», «об'єкт» і так далі. Ми називаємо свою ієрархію універсальної, тому що «дерево» зроблено загальним для всіх мов, а його «гілки» і кінцеві «листочки» можуть наповнюватися словами будь-якого конкретного мови. Друга одиниця - у нас вона називається семантема - це додаткова характеристика, наприклад, їстівне - неїстівне, штучне - природне і їм подібні. Це характеристика, яка для даного значення доповнює інформацію чимось важливим для розуміння сенсу.

- Навіщо потрібна окрема категорія «їстівне»? Хіба це не частина самого значення?

- Іноді одне і те ж значення може бути і «їстівним» і «неїстівним». Наприклад, слово «печений» може ставитися і до торту - і тоді воно «їстівне», і до технології виробництва цегли. І нарешті, третє - основне - це семантична зв'язок між значеннями, вона ж - глибинна позиція. Суб'єкт - предикат - об'єкт; локативів ( «де?»), темпорали ( «коли?») і так далі. Кішка з'їла ковбасу і Ковбаса з'їдена кішкою - синтаксично різні структури, а семантично - одна, і система повинна це розуміти. А є ще окремий рівень формалізації сенсу - онтологія. Коли онтоінженери пишуть правила вилучення інформації, вони як раз пояснюють, як те, що ми бачимо в реальному світі, пов'язане з семантикою. Фактично вони створюють модель світу для деякої конкретної області, використовуючи в якості основи ті п'ять сутностей, про які ми говорили вище, і додаючи нові.

У загальному сенсі онтологія - інструмент філософії, реєстр основних абстрактних категорій (структура і властивості, матеріальне і ідеальне і їм подібні), призначений для опису всього сущого. У комп'ютерній лінгвістиці та інших прикладних областях онтологія стає простіше і ближче до людей: моделює не все суще, а тільки той його шматочок, який пов'язаний з конкретним завданням або конкретної предметної областю.

- Щоб щось запрограмувати, - пояснює Анатолій Старостін, керівник групи семантичного аналізу в ABBYY і викладач комп'ютерної лінгвістики в МФТІ, - це «щось» потрібно формалізувати. Лінгвіст-теоретик може запропонувати формалізацію навіть з огріхами - з недоразрешённимі питаннями, і на виході все одно буде стаття. У комп'ютерній лінгвістиці інакше: якщо в формалізації є огріх, то програма просто не буде працювати. Тому моделі в ній можуть використовуватися дуже прості, але завжди працюють. Взагалі, теоретична лінгвістика дивиться на методи формалізації сенсу по-різному. Не всі будують універсальну семантичну ієрархію; чи можна організувати в ієрархію взагалі все - це великий теоретичний питання. Ми це зробили, і воно працює. Особисто мені цікаво, чи можливий гібрид такої ієрархії, як наша, і онтології, яка йде від завдання? Адже, взагалі-то кажучи, вони десь повинні зійтися. Мені здається, у людини в голові це організовано ще красивіше: у нього там з самого початку - велика онтологія, складно і не дуже зрозуміло влаштована, та ще й динамічна: ми весь час щось дізнаємося, що якось забуваємо, і під ці концепти в нашій свідомості постійно «підшиваються» слова ...

- А що буде, коли безліч предметних онтологій, створених для вирішення прикладних завдань, зіллються в такий собі семантичний Солярис, здатний описувати абсолютно все?

- Вийде практично живий робот, - посміхається Старостін, - який буде концептуалізувати всю навколишню дійсність. Але ми цим не займаємося.

- Перш за все, це не мало б сенсу, - пояснює Тетяна Даніелян. - Щоб вирішити завдання, її звужують. «Всемогутори» нікому не потрібні.

Чи потрібні машині лінгвісти?

Такий стриманою комп'ютерна лінгвістика була не завжди. Її юні роки відзначені як нападами ейфорії, так і гострими розчаруваннями.

- Тяга до структуризації, до опису природної мови формальними засобами властива лінгвістичній науці, - розповідає Старостін, - з середини XX століття теоретики тільки цим і займаються. Коли в п'ятдесяті роки з'явилися перші комп'ютери, люди відразу почали фантазувати, як би з їх допомогою вирішувати завдання обробки природної мови. Тоді вся лінгвістика була теоретичної: намагалася будувати моделі мови і отримувала досить цікаві результати. Здавалося б, просто: моделі у лінгвістів є, давайте їх кодувати і через два роки отримаємо, наприклад, машинний перекладач.

Цього, звичайно, не сталося. Моделі розвивалися, на їх основі з'являлися алгоритми, починали працювати, але ... кам'яна чаша не виходила: виходило не дуже добре. Гарне лінгвістичний опис «з голови» виявилося завданням не те щоб не розв'язуваної, але занадто об'ємною, щоб впоратися з нею в найближчому майбутньому.

У пошуках альтернативи згадали про теорію ймовірностей і математичну статистику. Математики вже знали, що, аналізуючи великі дані і використовуючи теорію ймовірностей, можна багато чого непогано передбачати. Статистичний підхід виявився застосуємо і до машинного аналізу тексту: для деяких завдань імовірнісні методи працювали. Це відкриття, підтримане різким зростанням комп'ютерних потужностей, вилилося в справжній статистичний бум. Абсолютно неможливий в сімдесяті (комп'ютери ще були слабкими), він почався в вісімдесятих, а в дев'яності вже породив дуже потужні роботи. З'явилися жарти на кшталт «коли я звільняю лінгвіста, якість роботи системи збільшується вдвічі». Розробники взагалі відмовлялися від лінгвістичного опису; здавалося, що досить напустити математичні методи на великі корпуси текстів, і комп'ютер сам все вивчить. Але і ці надії не виправдалися: через деякий час статистичні методи теж вперлися в свою стелю. Справа в тому, що вони все-таки дуже обмежені - засновані на примітивній логіці, і навіть величезні обсяги даних не можуть цього компенсувати.

- Але грати в шахи комп'ютери навчили приблизно тоді ж. Невже зрозуміти сенс «мама мила раму» складніше, ніж обіграти Гаррі Каспарова?

- Шахи - з їх божевільнім об'ємом информации, цілої Всесвіту можливий комбінацій, Які ще нікому НЕ удалось згенеруваті Повністю, - були «пробіті» переборного алгоритмами. Але що відбувається, коли статистику намагаються навчати на великих обсягах тексту? Уявіть, що ви набиваєте свою систему для гри в шахи величезною кількістю реальних партій. Збільшуєте кількість партій, вливаються в неї, вливаються ... Є і зворотний зв'язок: виграно - програно. Але чому виграно або програно, невідомо. Думаєте, така система навчиться грати?

- Чи не навчиться?

- Ні. Щоб вона навчилася, треба закласти в неї розумний алгоритм, який розуміє правила: як ходять фігури, хто кого їсть і так далі. А примітивний алгоритм, навіть навчаючись на величезному масиві даних, буде швидко упиратися в стелю. І ось тоді стало зрозуміло, що треба робити гібриди: або в статистику додавати більше лінгвістики, або в лінгвістику - більше статистики. Сьогодні це ми і спостерігаємо: зустрічний рух з обох сторін. Більшість існуючих систем машинного аналізу мови - гібридні. Конкретна конфігурація методів часто залежить від того, як це історично склалося: де спочатку була сильна математика, додають лінгвістичний опис, і навпаки. В ABBYY ми починаємо з семантичного опису, але «літати» - працювати по-справжньому добре - система почала після того, як його напустили на великий корпус і додали туди методи машинного навчання: навчили коефіцієнти цієї моделі.

- Навчили коефіцієнти?

- Уявіть, що в різних місцях вашої багатошарової - морфологія, синтаксис, семантика - моделі, крім дозволу «це може підключатися сюди», ще варто який-небудь вагу, який налаштовується. Ця вага можна налаштовувати руками, грунтуючись на інтуїції, а можна подивитися на корпусах, як часто «це» підключається «сюди». І ось коли така модель зважується на досить великих даних, вона починає працювати по-справжньому добре.

«Адронний коллайдер» для теоретиків мови

Виявляється, все-таки, щоб десь ефективно звузити, в іншому місці треба розширити: отримати масив спеціально оброблених текстів на мільйони і десятки мільйонів одиниць. Чим більше масив, тим краще навчаються на ньому математичні методи, тим точніше комп'ютер «розуміє прочитане». Інакше кажучи, сучасні системи машинного аналізу мови немислимі без лінгвістичних корпусів.

Гамлетівське питання лінгвістичної науки: чи достатньо інтуїції носія мови, щоб адекватно описувати пристрій своєї мови, або лінгвістичний опис вимагає об'єктивної валідації? Для другого потрібна представницька колекція прикладів, взятих з реальних текстів. Першим досвідом на цьому шляху став Браунський корпус англійської мови, створений в США в 1961 році. Він складався з 500 фрагментів приблизно по 2000 слів і був титанічної для свого часу роботою: по-перше, межею можливостей тодішніх комп'ютерів, а по-друге, його робили вручну, оскільки оцифрованих текстів було ще дуже малий. Браунський корпус настільки продумано заклав стандарти корпусного будівництва, що його авторитет довго впливав на творців наступних корпусів: так, що з'явилися на початку сімдесятих корпусу для інших мов теж містили по мільйону слів - Браунський стандарт! - хоча комп'ютери вже були здатні на більше. Але головне, що відрізняє будь-який корпус від неструктурованою колекції текстів, - розмітка, або анотація. Навіть мільйон слововживань - це океан, і, щоб в ньому не потонути, необхідно привести його в якусь систему, розбити на групи за параметрами, приписати кожній одиниці комплекс метаданих, з якими потім буде працювати математичний алгоритм. Це роблять лінгвісти вручну. Наприклад, Браунський корпус з метою структурування був розбитий на 15 «жанрів» - таких як «новина», «газетна стаття», «розважальний текст» і так далі. «Жанрами» корпусні лінгвістика в тому чи іншому вигляді користується досі, але Браунський мільйон вже давно крапля в морі: сьогоднішні корпусу вимірюються десятками і сотнями мільйонів одиниць і продовжують зростати. Фактично кількість - це якість корпусу, чим він більший, тим, за інших рівних, надійніше працює. Чому?

- Справа в тому, що статистично мова являє собою велику кількість рідкісних подій, - пояснює Сергій Шаров, один з піонерів сучасного корпусного будівництва, зараз працює в університеті Лідса, Великобританія. - Кожне слово, навіть цілком звичайне, в середньому зустрічається в мові вкрай рідко. Зрозуміло, є категорії слів, наприклад приводи або союзи, які можна побачити майже в кожному реченні. Але для того, щоб зустріти слово «вкрай» або слово «рідко», нам доведеться переглянути десятки тисяч слів. Якщо «вкрай» зустрічається, умовно кажучи, десять раз в корпусі з мільйона слів, така статистика не дає підстав для висновку, частотний воно, ніж який-небудь його синонім, наприклад «надзвичайно», або навпаки. Про слова, які зустрілися в мільйонному корпусі всього десять разів, робити якісь узагальнення не можна, екстраполяції на їх підставі будуть ненадійними. Але ж треба ще враховувати, що з такою частотою слово зустрічається в масштабі всього корпусу - та сама «середня температура по лікарні». Тим часом один жанр відрізняється за своїм лексичним складом від іншого: художня література - від новинних текстів, новинні - від текстів наукових статей. Якщо ми поділимо діапазон народження на якісь подобласти, то впевненість, що частоти будуть саме такими, падає. Отже, потрібні корпусу в сто, тисячу і мільйон разів більше, ніж Браунський. В кінці вісімдесятих з'явилися потужні комп'ютери і з ними - можливість збирати тексти в електронному вигляді, а в лінгвістичному співтоваристві остаточно визріло прагнення до достовірності і доказовості. Почалися об'ємні корпусні проекти. Одним з перших корпусів в десятки, а потім в сотні мільйонів слів став Bank of English - Банк англійської мови. Створений в Бірмінгемському університеті разом з видавництвом Collins, він використовувався для словника COBUILD - одного з традиційних словників для навчання англійської мови. Для навчальних цілей корпус безцінний. З одного боку, він дозволяє достовірно ранжувати слова по частоті, тобто об'єктивно підказує, що пред'являти учням в першу, а що в другу чергу. З іншого боку, система виділення значень теж показує найбільш частотні значення. Так що словникову статтю для кожного слова тепер можна будувати не інтуїтивно, а на тих значеннях, які реально перебувають в корпусі і відповідно до частотами цих значень. І нарешті, завдяки корпусу годі й вигадувати приклади, а використовувати те, що взято з реального життя - слова в своїх найбільш типових контекстах. На початку дев'яностих конкуренти Collins - видавництво Longman і видавництво Оксфордського університету - Oxford University Press починають будівництво Британського національного корпусу на 100 млн слів, пізніше він активно іспользовалcя для лонгмановскіх словників і граматик.

У самому кінці вісімдесятих в Радянському Союзі почали створювати Великий корпус російської мови під назвою «Машинний фонд російської мови», але з певних причин ця робота перервалася і почалася знову в кінці дев'яностих. У лінгвістів вже було чітке розуміння того, що для корпусів потрібні не тільки тексти, а й технології розмітки: класифікація за жанрами, виділення частин мови, виділення рем ( «нової» інформації в структурі висловлювання), відновлення до леми (вихідної форми слова) - все це для російської мови зробити складніше, ніж для англійської.

У цьому контексті і з'явився проект Національного корпусу російської мови, який був підтриманий, з одного боку, грантом Академії наук, а з іншого - компанією «Яндекс» в особі її директора з технологій, на жаль нині покійного, Іллі Сегаловіча. «Яндекс» забезпечував підтримку технологічну: домен і механізм пошуку.

Цей проект породив ресурс, яким активно користуються лінгвісти, але в цей час я отримав посаду спочатку в Німеччині, потім переїхав в Лідс (Великобританія), і моєю темою стало створення і використання великих корпусів.

- Чому саме тоді?

- Вибухове зростання всесвітньої мережі: народ став заселяти інтернет і публікувати в ньому величезні обсяги текстів, від форумних повідомлень до художніх творів і наукових статей. Новини, журнали, думки, коментарі - все це з'явилося ще в кінці дев'яностих, а з 2005 року почали активно розвиватися соцмережі - принципово нове джерело лінгвістичного матеріалу. Справа в тому, що в журналах, газетах, наукових статтях, навіть мережевих, тексти кимось спеціально контролюються на вході. У таких контролерів є і позитивний вплив - вони забезпечують стандарт, і негативне - вони готові пропускати тільки те, до чого звикли. Але коли людина щось публікує у себе в блозі або в соціальних мережах, ніякого цензора над ним немає. У цю обставину теж є і плюси і мінуси, але, як лінгвістам, нам важливо, що в результаті ми бачимо мову до модерування: нам є набагато більше мовних явищ, ніж раніше. З середини нульових почали з'являтися великі корпуси, зібрані з інтернету.

- Виходить, що корпус - це в якомусь сенсі «лінгвістичний адронний коллайдер», навколо якого товпляться лінгвісти і думають, що б ще туди кинути і подивитися, що вийде, на які частини розлетиться і в які групи збереться?

- І так само, як адронний коллайдер будували ті самі люди, які будуть кидати, так і лінгвісти-теоретики стають на шлях корпусного будівництва. Сучасні корпуси - це вже мільярди слів. Тільки на такому обсязі ми можемо отримати надійну статистику, особливо для сегментів. Усного мовлення в корпусах представлено не дуже багато, але, з іншого боку, у нас є соціальні мережі - доступ до того, як приблизно люди говорять. Звичайно, аудиторія соцмереж обмежена необхідністю використовувати клавіатуру, але все одно говорить абсолютно спонтанно.

Корпуси - вікно в реальність

Коли настає епоха корпусного достатку, коли обмеження за кількістю і доступності матеріалу зняті, у теоретиків розв'язані руки для того, щоб експериментувати з розміткою. Як вже говорилося, розмічає корпусу людина, і це може бути завданням, розв'язуваної однозначно - або не дуже. Наприклад, якщо перед людьми стоїть завдання позначити слово за належністю до тієї чи іншої частини мови, це робиться в цілому однозначно, і десять і сто розмітників-лінгвістів, швидше за все, погодяться, що огірок - іменник чоловічого роду, а бігти - дієслово з семантикою руху. Жорстка традиційна граматика справляється з описами того, що можна спостерігати всередині слова або пропозиції, тому і машина вміє розпізнавати це досить точно. Інакше з розміткою більших текстів і тих їхніх аспектів, які пов'язані з функціонуванням тексту в соціумі. Найчастіше нам цікаво не «опис або інструкція?», А мета того чи іншого тексту: чи намагається він нас переконувати, розважати, чи містить оцінку - і подібне, що в термінології Сергія Шарова називається симптомами. Групуючись в регулярні кластери, вони утворюють жанрові «синдроми» - претенденти на роль жанрів в новому функціональному вимірі - в просторі комунікативних цілей.

Тут люди, по-перше, єдине джерело інформації для розмітки, а по-друге, далеко не завжди схильні погоджуватися один з одним.

З одного боку, використовувати насилу верифіковані, часто неоднаково тлумачиться розмітником категорії - ризиковано. З іншого - слава статистикою! - на оцінки розмітників одного і того ж тексту, нехай навіть розкидані, можна подивитися як на масив, піддати нормування і отримати цілком валідниє імовірнісні значення того, наскільки текст аргументатівен, розважальники або оценочен, без прив'язки до того, новина це, енциклопедична стаття або інтернет -щоденник.

Створену таким чином систему функціональних жанрів розробники - Сергій Шаров, Онися Катинській (РДГУ) та Олексій Сорокін (МДУ ім. М. В. Ломоносова) - потім планують застосувати до російськомовного сегменту інтернету. Можливо, у функціональних жанрів, виділених на основі людських оцінок, є лінгвістичні кореляти - надійні внутрітекстовие ознаки, які можна «помацати руками» і навчитися розпізнавати машинним чином? А може бути, такі лінгвістичні «відбитки пальців» є і у різних груп говорять, наприклад об'єднаних гендером, віком або місцем проживання?

Останні експерименти над російськомовним сегментом інтернету (перш за все, блогами, тому що соціальні мережі часто містять інформацію про вік, стать і місце проживання блогера) показали, що такого виключати не можна. Так, в червні нинішнього року на щорічній конференції з комп'ютерної лінгвістики «Діалог» свої перші результати представила група дослідників, що працює над Генеральним інтернет-корпусом російської мови (ГІКРЯ). При всіх застереженнях корпус дозволяє досить достовірно спостерігати реальну, а не опосередковану укладачами словників частотність тих чи інших слововживань в різних соціальних, гендерних і так далі групах користувачів. Абсолютно несподівано гендерно не нейтральні виявилися кілька звичайних слововживань: «фемінізовані» вираження кожен раз і кількісні оцінки з так і дуже (так багато, дуже швидко), а «маскулінізіровать» - щонайменше і кількісні з елементом порівняння: набагато ... і в (о) ... раз * . Ці скромні результати - перші ластівки того, що обіцяє стати методом статистичної валідації гіпотез в області гендерної та соціальної лінгвістики.

***

Коли наступного разу занесете пальці над клавіатурою, щоб Твитнуть кілька слів або прокоментувати (откомментіть!) Пост під френдстрічку, задумайтеся. У потоці нісенітниці, яку ми породжуємо за чашкою кави, ховаються дивовижні реалії мови, здатні перевернути наше уявлення про його устрій настільки ж, наскільки один погляд на живого слона перетягує тисячі його ретельних і коректних описів. Не виключено, що років через п'ятдесят мовознавство розповість нам про жіночому і чоловічому діалектах (і, при успіху, запропонує розмовник) або про розподіл аргументатівного текстів за віковими групами (головними енциклопедистами напевно виявляться тінейджери), а смайлики і закреслення увійдуть в програму іспиту з російської мови, розділ «пунктуація».

Сучасна наука - наука масивів і статистичних методів. Десь процес переформатування наукових парадигм під тиском зростаючої інформаційної маси почався раніше, десь пізніше, але очевидно, що ми ще не уявляємо собі й десятої частки того, чого лінгвістика може навчитися у багатомільярдних корпусів.

Коментарі до статті

* Дані наводяться за статтею: Бєліков В. І., Копилов Н. Ю., Селега В. П., Шаров С. А. Диференціальна корпусні статистика на підставі неавтоматической метатекстового розмітки / Зб. Комп'ютерна лінгвістика та інтелектуальні технології, вип. 13 (20). Матеріали щорічної Міжнародної конференції «Діалог» (2014 року), с. 52.

А якщо нам потрібно щось не має комерційного сенсу?
А якщо не «щось» - а все за деякою темі, тому що належить приймати рішення з дуже високою ціною?
Невже при наявності сьогоднішніх пошукових систем важко знайти потрібний папірець на сервері?
Найчастіше нам потрібно знати: а що з цією сутністю відбувається, наприклад: «Хто, де, коли, з ким що робив і що планує робити далі?
Що сталося між Мариною і кави?
Але про численні «це» і «свої» машина, як правило, болісно спотикається: з чим зі згаданого раніше їх співвіднести?
Машинне «читання» - це здатність з деяким ступенем точності «зрозуміти сенс»: йде в тексті мова про одне й те ж або про різні речі?
Якщо про різні, то про схожих чи ні?
Новости
Слова жизни
Фотогалерея