Програма: "Інформаційні управляючі системи та технології "



Скачати 333.42 Kb.
Дата конвертації29.12.2016
Розмір333.42 Kb.


НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ

Києво-Могилянська Академія“


Магістерська програма:

“Інформаційні управляючі системи та технології ”



Особливості пошуку наукових матеріалів
Кваліфікаційна робота

на здобуття академічного ступеня магістра
ЯКОВЧУК Дар`ї Сергіївни

Науковий керівник -

старший викладач



А.М. Глибовець

Київ 2009


План

1.


План 3

Скорочення 4

Вступ 5

Сучасний стан пошуку інформації 9



Огляд пошукових систем наукових матеріалів 17

Scirus 17

Citeseer 19

Google Scholar 22

Підвищення ефективності пошуку наукової інформації 34

Реалізація програми пошуку наукових матеріалів 36

38

Висновки 40


Скорочення


HTML – HyperText Markup Language, мова розмітки гіпертекста

RTF – Rich Text Format, універсальній текстовий формат

PDF - Portable Document Format, кросплатформений формат електронних документів

WWW – World Wide Web, всесвітня павутина, всесвітня інформаційна мережа

ІПС – інформаційно-пошукова система

УДК - Універсальна десяткова класифікація, міжнародна бібліотечно-бібліографічна класифікація

TF - Term Frequency

ITF- Inverse Document Frequency

Вступ

Стрімке зростання кількості інформації в мережі Internet призвело до потреби в постійному вдосконаленні методів пошуку інформації. Наприклад, якщо з появою перших пошукових систем загальна кількість проіндексованих сторінок складала лише десятки тисяч, на сьогодні їх приблизна кількість складає білліони. А отже, якщо на початку створення пошукових систем могли бути ефективними навіть найпростіші засоби пошуку інформації, сьогодні їх не достатньо. Враховуючи це, провідні пошукові системи, такі як Google, Yahoo, Ask.com, та ін. постійно впроваджують нові методи для підвищення релевантності результатів пошуку, тобто для збільшення відповідності документів отриманих користувачем у відповідь на запит до інформаційно-пошукової системи його потребам.

Одним із результатів розвитку Всесвітньої павутини є збільшення зацікавленості нею як джерелом наукової інформації. Зокрема, цьому сприяло переведення значної кількості підручників та публікацій в електронну форму. Також з 2001 року пошукові системи почали індексувати документи у форматах, відмінних від html, зокрема, у форматах характерних для зберігання наукової інформації, таких як pdf, PostScript. Це збільшило кількість наукових документів, доступних для пошуку. Варто також відзначити, що ще однією перевагою Internet є легкість розміщення та використання цих матеріалів.

Проте, при пошуку наукових матеріалів через пошукові системи у отриманих користувачем результатах документи наукової тематики можуть взагалі не з`явитись на перших сторінках. Через це дуже часто складається така ситуація: ймовірність знайти якусь статтю є незначною навіть якщо вона проіндексована даною пошуковою системою.

Основною причиною цього є те, що пошукові системи при визначені релевантності орієнтуються на ключові слова пошукового запиту, що задані користувачем. Відповідно, за цими словами не завжди можна визначити тематику документів. По-друге, через специфічність цільової аудиторії наукові документи можуть мати значно меншу кількість посилань, що також впливає на визначення релевантності.

Запровадження тематичного розмежування результатів пошуку на рівні пошукової системи при сучасних обсягах доступних для пошуку даних потребує значного підвищення складності пошуку. Тому більш виправданим виявилось створення окремих пошукових систем, що спеціалізуються на пошуку наукової інформації.

На сьогоднішній день найбільш популярними серед спеціалізованих пошукових систем для пошуку наукової інформації є такі, як CiteSeer, Google Scholar, Scirus. В другому розділі цієї роботи розглянуто принципи роботи цих пошукових систем. Серед найважливіших варто відмітити такі:


  • Пошук на порталах наукового спрямування, наукових видавництв, університетів, тощо.

  • Пошук документів у форматах, відмінних від html, зокрема pdf та PostScript.

  • Врахування цитованості джерела при ранжуванні результатів.

Загалом варто відзначити, що спеціалізовані пошукові системи є достатньо ефективними для пошуку англомовних наукових матеріалів.

Проте, метод пошуку на порталах наукового спрямування є недостатньо ефективним для пошуку україномовних наукових матеріалів, адже такі спеціалізовані ресурси зберігання інформації є менш характерними для української частини Internet. По-друге, підтримка пошуку україномовних матеріалів в більшості систем реалізована не повністю, що призводить до зменшення релевантності результатів пошуку українською мовою.

Все це свідчить про актуальність подальших досліджень у галузі ефективності пошуку наукових матеріалів.

Мета виконання дипломної роботи полягає у проведенні досліджень сучасного стану пошуку інформації, ознайомленні з підходами до пошуку наукової інформації та створенні прототипу пошукової системи україномовних наукових матеріалів, яка б дозволила підвищити ефективність пошуку наукових матеріалів за максимального обсягу охоплюваних пошуком матеріалів.

Основні завдання дипломної роботи:


  • Провести аналіз пошукових систем, методів пошуку інформації та їх застосування.

  • На базі проаналізованих методів розробити засоби для підвищення ефективності пошуку україномовних наукових матеріалів.

  • Створення прототипу програми пошуку україномовних наукових матеріалів, яка зможе використовуватись для створення електронної бібліотеки наукових матеріалів Національного Університету Києво-Могилянська Академія.

Ідея дослідження полягає у створенні на клієнтській стороні програмного застосування, яке б підвищувало ефективність пошуку враховуючи те, що цільовою тематикою пошуку є саме наука. Для визначення тематики документа вирішено враховувати функціональний стиль документа. За основу взято теорію поділу мовлення на функціональні стилі: офіційно-діловий, науковий, публіцистичний, художній, конфесійний, розмовний, епістолярний. Оскільки для наукових матеріалів характерним є використання саме наукового стилю, документ, написаний науковим стилем є релевантним для пошуку наукових матеріалів. У роботі розглянуто основні ознаки наукового стилю і відповідно до них розроблено методи визначення приналежності документа до наукового стилю. На основі цих методів створено програмне застосування для пошуку наукових матеріалів.


Сучасний стан пошуку інформації

Поява Всесвітньої павутини у 1989 році значно змінила підходи до пошуку інформації, оскільки Інтернет, як колекція документів має певні унікальні риси:



  • Велика кількість документів. За даними Google на 2008 рік налічувалось близько 1 трилліона унікальних посилань.

  • Динамічність. Документи постійно додаються і оновлюються. Так на початок 2000 року їх кількість сягала декількох білліонів, а на січень 2004 вже була більшою за 10 білліонів.

  • Самоорганізованість. На відміну від традиційних зібрань документів, де їх додаванням і зберіганням займаються спеціалісти, у Всесвітній павутині користувачі здатні самостійно додавати, змінювати та вилучати інформацію.

  • Інформація взаємопов`язана за допомогою посилань.

Це зумовило розвиток пошукових систем, орієнтованих на автоматичний пошук великої кількості інформації.

«Wandex» - це перший пошуковий індекс, який на сьогодні вже не існує, створений «World Wide Web Wanderer», що був розроблений у Масачусетському технологічному інституті в 1993 Метью Греєм. Ця пошукова система налічувала близько 10 000 проіндексованих сторінок. Першою повнотекстовою («crawler-based») пошуковою системою стала «WebCrawler» (2 млн. сторінок), запущена в 1994. Вона стала першою загальновідомою пошуковою системою, що дозволяла пошук за ключовими словами. В 1995 був запущений «Lycos», розроблений в університеті Карнегі Меллона.

Потім з’явились інші пошукові системи, такі як «Excite», «Infoseek», «Inktomi», «Northern Light». А також інтернет-каталоги, такі, як «Yahoo!».

Як перші каталоги, так і перші пошукові системи мали свої недоліки, які виявлялися зі збільшенням кількості документів в мережі. Наприклад, результати, які видавали пошукові системи містили велику кількість нерелевантних документів, адже традиційних методів оцінки релевантності тексту виявилось недостатньо. Це призвело до того, що на листопад 1997 року тільки одна з пошукових систем з`являлась у результатах пошуку при пошуку її власної назви2.

Ситуація змінилась, коли у 1998 році в Стенфордському університеті, в рамках дослідницького проекту, була створена Google. Google - це гра зі словом googol (гугол). Гугол - це число десять у сотому ступені, тобто одиниця зі ста нулями. Використання цього терміна відбиває мету компанії Google зробити доступним для пошуку весь, практично нескінченний, масив інформації, що розміщена в Інтернет.

У січні 1996 року Лоуренс Пейдж і Сергій Брін почали спільну розробку пошукового сервера Backrub, що одержав свою назву за нетривіальне вміння аналізувати так звані "зворотні посилання", що вказують на ту або іншу сторінку із інших ресурсів Інтернету.

Рік по тому їхній унікальний підхід до аналізу посилань отримав непогану репутацію серед тих, хто бачив його в дії, і популярність Backrub зростала.
Як результат цих розробок у 1998 з`явилась пошукова система Google.

На сьогодні більшість пошукових систем поєднують оцінку посилань з традиційною оцінкою інформації.



Основні моделі пошуку інформації

  • Булева модель пошуку інформації є однією з найпростіших. Вона передбачає повне співставлення документу і запиту користувача. Назва використовується завдяки наявності булевої алгебри, оскільки слова в запиті логічно пов’язуються булевими операторами І, АБО та запереченням.

  • Модель векторного простору. Для цієї моделі характерна трансформація текстових даних у числові вектори та матриці, та виявлення ключових зв`язків у тексті за допомогою аналізу матриць. У цій моделі вага окремих термів обчислюється як TF*IDF (де Term Frequency – це локальна частота терма, а Inverse Document Frequency – це величина, що обернена до частоти використання цього терму в інших документах.)

  • Ймовірнісна модель. Документи ранжуються відповідно до величин релевантності (прямо пропорційно ймовірності їх відповідності запиту та обернено пропорційно ймовірності того, що вони не відповідають запиту).


Архітектура сучасних пошукових систем

Сучасні пошукові системи мають наступну архітектуру:



  • Сrawler (павук) - здійснює сканування Інтернет ресурсів у пошуках інформації, зберігає та категоризує її.

  • Репозиторій сторінок – зберігає сторінки повернуті павуками, але ще не проіндексовані, або популярні сторінки.

  • Модуль індексування – створює стиснутий опис сторінки, будує бази даних за ключовими словами.

  • Індекси – зберігає бази даних за ключовими словами у вигляді, зручному для пошуку за ними;

  • Модуль запитів – перетворює запит користувача природною мовою на мову пошукової системи, та надає запити до індексів.

  • Модуль ранжування – отримує набір релевантних даних, та ранжує їх відповідно до певного критерію (найчастіше за оцінкою змісту та популярності) [1].




Класифікація сучасних пошукових систем


  • Класифікаційні інформаційно-пошукові системи. В таких інформаційно-пошукових системах використовується ієрархічна (деревовидна) організація інформації, котра називається КЛАСИФІКАТОРОМ. Розділи класифікатора називаються РУБРИКАМИ. Бібліотечний аналог класифікаційної інформаційно-пошукової системи - систематичний каталог. Класифікатор розробляється та удосконалюється колективом авторів. Потім систематизатори читають документи та відносять їх до певного розділу класифікатора.

  • Предметна ІПС. Предметна ІПС полягає у тому, що з кожною назвою пов`язані списки відповідних ресурсів у Інтернет. Такі системи є доволі ефективними при невеликих обсягах інформації.

  • Словарні ІПС. Культурні проблеми, пов`язані з використанням класифікаційних ІПС, призвели до створення ІПС словарного типу, з узагальнюючою назвою «search engines». Основна ідея словарної ІПС - створити словник із слів, що зустрічаються у документах Інтернет, в котрому при кожному слові буде зберігатись список документів, з котрих взято дане слово.

Є два основних алгоритми роботи словарних ІПС: з використанням ключових слів і з використанням дескрипторів. В першому випадку, для оцінки складу документу використовуються лише ті слова, що в ньому зустрічаються, і за запитом ІПС співвідносить слова із запиту зі словами з документу та визначає за кількістю, розташуванням, вагою слів із запиту в документі його релевантність. Всі сучасні ІПС використовують цей алгоритм, в різних його модифікаціях.

При роботі з дескрипторами документи, що індексуються перекладаються на деяку дескрипторну інформаційну мову. Дескрипторна мова складається з алфавіту (символів), слів, засобів вираження парадигматичних та синтагматичних зв'язків між словами. Парадигматика передбачає виявлення прихованих в природній мові лексико - семантичних зв`язків між поняттями. В межах парадигматичних зв`язків можна розглядати, наприклад, синонімію, омонімію. Тобто, запит користувача переводиться в дескриптори та обробляється ІПС вже в цьому вигляді. Такий підхід потребує більших обчислювальних ресурсів, але й потенційно більш продуктивний, оскільки дозволяє відмовитись від критерію релевантності і працювати безпосередньо з пертинентністю документів.

На сьогоднішній день найчастіше вся пошукова інформація, навіть копії документів, зберігається у самій ІПС. Це було обумовлене ненадійністю початкових каналів зв`язку та обладнання і надавало можливість користувачу ІПС фактично незалежно від доступності документу ознайомитись із ним. Проте зараз це призводить до того, що ІПС змушені збільшувати свої обчислювальні потужності пропорційно до збільшення кількості документів в Інтернет, тобто експоненціально.

У зв`язку з цим постає проблема оновлюваності проіндексованих сторінок. Вона є також важливою для пошуку наукових матеріалів, коли існує потреба у актуальній інформації. Так, Д.Левантовськи було проведене дослідження, в якому протягом 2005, 2006 та 2007 років були досліджені терміни оновлюваності сторінок у найбільших пошукових системах (Google, Yahoo та MSN). Згідно цьому дослідженню на тестовій вибірці з 40 сторінок максимально довгий термін оновлюваності досліджуваних матеріалів у 2007 році становив близько двох днів для Google та Yahoo, і 5,7 – для MSN. Найдовший термін з усіх документів у Google становив 175 днів, у MSN – 30 [3].

Інша проблема сучасних пошукових систем - «невидимий веб» (invisible web). Цей термін з`явився ще в 1994 році. Його використав Джілл Іллсворт (Jill Ellsworth) для позначення джерел, що з тих чи інших причин недоступні для звичайних пошукових систем. Синонімами цього терміну є «темний веб» (dark web) або «глибокий веб» (deep web).

Основною причиною, з якої джерела потрапляють до невидимої частини веба, є їхній інтерактивний характер. Декілька основних причин:



  • Доступні через веб бази даних, що динамічно генерують інформаційні сторінки після виконання запитів користувача, не можуть бути проіндексовані звичайними пошуковими машинами, що рухаються за посиланнями.

  • Інформація, що розміщена не в традиційному для веб html-форматі. Одним з кроків у подоланні цієї проблеми був початок індексування у лютому 2001 року системою Google файлів у pdf-форматі. У лютому 2001 року Google додав також до переліку підтримуваних форматів Microsoft Word (doc), Microsoft Works (wks, wps, wdb), Microsoft Write (wri), Microsoft Excel (xls), Microsoft PowerPoint (ppt), Rich Text формат (rtf), PostScript (ps), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku), Lotus WordPro (lwp), MacWrite (mw), Text (ans, txt). Це надало змогу зокрема і збільшити проіндексовану частину наукових матеріалів, оскільки більшість їх викладено саме в форматах .doc та .pdf. 12

  • Проте найважливішою проблемою пошуку наукових матеріалів через пошукові системи є те, що при ранжуванні не враховується тематика документа, що призводить до великої кількості «шуму» у результатах пошуку.

Одним з варіантів вирішення цієї проблеми було створення спеціалізованих систем пошуку наукових матеріалів, які будуть розглянуті в наступному розділі.

Отже, сучасні основні риси сучасних пошукових систем



  • Великі обсяги проіндексованих сторінок

  • Динамічність

  • Потужність

Проте в той же час для них характерна відсутність методів виокремлення наукової інформації, що робить їх недостатньо ефективними у пошуку наукових матеріалів.

Огляд пошукових систем наукових матеріалів

Scirus

Scirus — це одна з найпопулярніших пошукових систем наукової інформації в Інтернет. Ця система спрямована на пошук наукової інформації на сторінках сайтів наукової тематики і має у своїй базі більш ніж 485 мільйонів проіндексованих сторінок наукових текстів і документів.

В 2001 та 2002 роках організація Search Engine Watch відзначила Scirus як кращу спеціалізовану пошукову систему, а в 2004, 2005, 2006 році Web Marketing Association назвала її кращою серед веб-сайтів, каталогів або пошукових систем.

Основні переваги системи Scirus:



  • Висока ефективність: система орієнтована тільки на веб - сторінки наукової та освітньої тематики;

  • Широке охоплення матеріалів: система здійснює пошук в Інтернеті, журналах і базах даних, що забезпечує набагато більш глибокий і всебічний пошук у порівнянні зі звичайними пошуковими системами;

  • Пошук у файлах різного формату: пошук ведеться не лише у html сторінках, але й у PDF чи PostScript документах.

  • Можливості розширеного пошуку:

    • за конкретним виданням

    • за типами джерел (напр., патенти, повнотекстові журнали, організації, тощо)

    • за автором

    • за форматом документу (наприклад, дозволяє шукати лише документи у форматі PDF чи PostScript)

    • за предметною областю (наприклад, мікробіологія чи економіка).

    • з використанням ключових слів для уточнення пошуку

  • Надання пошукових сервісів для бібліотек: можливість встановити на сторінках будь-якої бібліотеки пошук Scirus9.

Ранжування результатів

За замовченням Scirus ранжує результати у відповідності до їх релевантності. Можливе також ранжування результатів за датою.

Scirus використовує алгоритм для обрахування ранжування за релевантністю. При цьому враховується дві основні властивості:


  1. Слова. Розташування та частота шуканого терміну (статичне ранжування).

  2. Посилання. Кількість посилань на сторінку (динамічне ранжування). При цьому система не враховує мета-теги, вважаючи їх засобом для маніпулювання результатами.

Нові сторінки додаються до Scirus вручну, причому обов`язково вручну перевіряються на їх приналежність до наукової тематики.

Crawler Scirus отримує посилання та індексує додані в систему сторінки. При цьому нові посилання, знайдені на цих сторінках, додаються до індексування лише якщо вони також були визначені як наукові.

В той же час відбувається поповнення бази за рахунок домовленостей з видавництвами.

Проіндексовані документи аналізуються на те, до якої тематики вони належать. При цьому використовується два варіанти:



  • Класифікація на основі предмету. Використовується лінгвістичний аналіз, а також словники для визначення ключових слів. При цьому одному документові може бути присвоєно більше однієї категорії (Наприклад, психологія та соціальні науки).

  • Класифікація на основі типу інформації. Визначається тип документу. Наприклад: сторінка науковця, анотація, тощо.

Система дозволяє пошук україномовних сторінок, має у своєму індексі сторінки українських університетів та наукових співтовариств. Проте для документів українською мовою не працює достатньою мірою класифікація, а отже багато пов`язаних з цим можливостей недоступні.

Citeseer


CiteSeer - електронна бібліотека та пошукова система наукових публікацій, що значною мірою сфокусована на пошуку матеріалів з комп`ютерних наук. Метою створення CiteSeer було поліпшення поширення наукової літератури і забезпечення удосконалення у функціональності, вартості, всебічності, ефективності, і своєчасності в доступі до наукових і академічних знань. Система CiteSeer була розроблена в 1997 році трьома співробітниками фірми NEC - Стівом Лоренсом, Куртом Боллакером та Чі Гілсом - для індексування наукової літератури й автоматичного підрахунку індексу цитування для кількісного визначення значимості окремих публікацій. З 2003 року проект адмініструється університетом штату Пенсільванія. Модель CiteSeer була використана для створення системи пошуку для академічних ділових документів SmealSearch.

Назва проекту є комбінацією англійських слів sightseer (турист, "той, що розглядає визначні пам'ятки") і cite (цитата). Сьогодні бібліотека CiteSeer містить інформацію про більш ніж 750 тисячі документів у форматі HTML, PDF, PostScript. 8

Підтримувані можливості


  • Містить вихідні тексти статей (у форматах PDF або PS), які можуть поширюватися без обмежень; система сканує тільки відкриті джерела (такі, як персональні сторінки вчених), але не сканує сайти видавництв, що поширюють наукові статті на комерційній основі.

  • Дозволяє шукати за повною назвою статті. В цьому випадку, як правило, саме ця стаття видається першою в списку.

  • Автоматично обчислює індекс цитування й статистика цитування.

  • При пошуку статті ранжуються за індексом цитування.

  • Для кожної статті автоматично формуються й видаються списки статей:

    • бібліографічні посилання усередині статті;

    • посилання на близькі статті (із вказівкою відсотка схожих пропозицій);

    • посилання на статті, які посилаються на дану;

    • посилання на статті, що мають багато загальних бібліографічних посилань із даної;

  • У результатах пошуку показується контекст статті.

Також існує нова версія CiteSeerx з наступними характеристиками:

  • Оновлюється щодобово .

  • Підсистема MyciteSeerx підтримує персональні добірки статей; планується введення елементів персоналізації.

  • Надає такі ресурси, як алгоритми, дані, сервіси, програмне забезпечення для підтримки інших електронних бібліотек7.

Замість створення інших цифрових бібліотек, CiteSeer намагається забезпечити такими засобами як, наприклад, алгоритми, дані, мета дані, послуги, техніка, і програмне забезпечення, яке може бути використане, аби просувати інші цифрові бібліотеки.

Автономне цитатне індексування (AЦI)



  • CiteSeer використовує AЦI, щоб автоматично створити цитатний індекс, котрий може бути використаний для літературного пошуку і оцінки.

  • CiteSeer обчислює статистику цитування і посилань на документи для всіх статей, процитованих в базі даних, а не лише проіндексованих.

  • CiteSeer може показати контекст даного документу, дозволяючи дослідникам швидко і легко довідатись інформацію про документ.

  • CiteSeer забезпечує автоматичне повідомлення про додавання нових цитат до даних документів, і нових документів, що відповідають заданим користувачем параметрам.

  • CiteSeer показує відсоток співпадаючих речень між документами.

  • CiteSeer відображає контекст, у якому терміни запиту використовуються в статтях замість загального підсумку статті, покращуючи ефективність пошуку.

  • CiteSeer дозволяє переглядати зображення сторінок.

  • CiteSeer надає можливість пошуку за ініціалами автора.

  • CiteSeer автоматично виділяє мета дані у статтях.

  • Початковий код системи вільно розповсюджується для некомерційного використання.

  • CiteSeer постійно оновлюється.

Google Scholar


Google Scholar – ще одна система пошукових матеріалів. Бета-версія цієї системи з`явилась у 2004 році, повна версія – у 2006. Ця система дозволяє пошук на сторінках українських співтовариств та наукових видавництв. Зокрема, можливий пошук: документів, тезисів, книг, анотацій та статей на сайтах академічних видавництв, наукових співтовариств, сховищ друкованих матеріалів та інших наукових організацій.

Особливості Google Scholar

  • Пошук різноманітних джерел з одного надійного місця

  • Пошук документів, анотацій та цитувань.

  • Знаходження повного тексту документа у бібліотеці або Інтернет

  • Визначення ваги статті при відображенні результатів

При ранжуванні документів враховується увесь текст кожної статті, автор, видання та наскільки часто воно цитоване у іншій науковій літературі. Найбільш релевантні джерела відображаються на перших сторінках.

Інші характеристики:


  • Джерела матеріалів. Google Scholar не розповсюджує інформацію про джерела матеріалів, проте відомо, що включає такі бібліотеки, як «OCLC’s Worldcat holdings», Elsevier та American Chemical. Що стосується українських видавництв, то з вересня 2007 року Google Scholar розпочав співпрацю з видавництвами, причому з можливістю надання видавництвами друкованих матеріалів для подальшого переводу матеріалів в електронний вигляд11.

  • Кількість проіндексованих матеріалів. Google Scholar також не надає інформації про кількість доступних матеріалів хоча розробник Scholar Анураг Ахарія сказав, що вона «доволі велика». У результатах пошуку Google Scholar одна й та сама стаття може відображатись декілька разів, що також унеможливлює визначення кількості проіндексованих матеріалів.

  • Часове покриття. Часові межі видань у Google Scholar також точно невідомі. З причин конкурентності, Google Scholar не надає інформації про те, як часто оновлюється його база. За даними дослідження 2006 року нові дані додавались кожні 12-15 тижні.

  • Географічне та мовне покриття. Google Scholar також не надає інформації про мовне та географічне покриття. Дослідження виявили, що окрім англомовних матеріалів база Google Scholar налічує також достатньо проіндексованих публікацій видавництв Європи, хоча більшість з них не містить повнотекстових посилань на анотації чи повнотекстові статті. Це характерне і для україномовних статей.

  • Бази даних та зміст. Коли Анурага Ахарію запитали, які основні розділи охоплює Google Scholar він відповів “Ми вважаємо, що Google Scholar охоплює всі основні дисципліни” 11. Таку саму думку проголошено на офіційній сторінці Google Scholar - система охоплює “всі широкі галузі досліджень ”. Ця недостатність інформації викликала дослідження. Так, у дослідженні, що розглядає покриття матеріалу у галузі комп`ютерних наук у Всесвітній павутині системами Google Scholar та CiteSeer, показало, що Google Scholar має достатню кількість ресурсів для випадку, на якому проводилось тестування. Крістінсон, дослідивши список видань з Екології, виявила, що Google Scholar покриває від 57 до 77% з 840 розглянутих статей. Загалом дослідження виявили, що ступінь покриття бази наукових матеріалів є доволі значним.

Механізми пошуку. Google Scholar Не має можливостей сортування знайдених матеріалів за автором, видавництвом, тощо. Також Google Scholar не має посилань на спорідненні до знайдених статті. При пошуку матеріалів Google Scholar враховує граматичне написання. Google Scholar адаптував алгоритм для врахування різних аспектів релевантності матеріалів у науковому світі. Його пошуковий алгоритм ранжує результати: “як дослідники…зважуючи повний текст кожної статті, автора, видання, яке видало статтю, та як часто на неї посилаються інші видання" 5.

Недоліки спеціалізованих систем пошуку наукової інформації


  • Орієнтованість на англомовні матеріали. Ефективний пошук україномовних наукових матеріалів надає лише Google Scholar.

  • Пошук на сторінках академічних видавництв, наукових співтовариств, сховищ друкованих матеріалів та інших наукових організацій. Оскільки значна частина україномовних наукових матеріалів також може зберігатись на особистих сторінках викладачів, форумах, та ін., охоплення матеріалів є неповним.

Отже, основними рисами спеціалізованих пошукових систем є:



  • Менший, порівняно зі звичайними пошуковими системами, обсяг охоплюваної інформації

  • Орієнтованість на пошук на сайтах та базах видавництв, наукових співтовариств, організацій, тощо.

Проте охоплення цими системами україномовних ресурсів є недостатнім для формування на їхній основі системи пошуку наукових матеріалів.

Особливості наукових матеріалів, науковий стиль
Стилі мови можна визначити як історично сформовані, суспільно усвідомлені різновиди загальнонаціональної літературної мови, які різняться принципами відбору та організації мовних засобів і частково самими мовними засобами відповідно до сфер спілкування.

Серед позамовних чинників, які впливають на формування стилю, виділяють базові. Це сфера суспільно-виробничої діяльності, в якій постає і формується певний стиль, тип мовомислення та форма суспільної свідомості, яку представляє, виражає цей стиль.

Розглянемо детальніше розподіл на стилі на основі конкретної сфери суспільно-виробничої діяльності.

Функціональний стиль — це різновид мови (тип мовомислення, мовної діяльності), що характеризується співвіднесеністю з певною сферою суспільно-виробничої діяльності мовців.

Серед диференційних ознак функціонального стилю домінуючою є не міра експресії мовлення, а мовні одиниці — носії семантики певної сфери життя і діяльності (наука чи політика і право, творчість чи побутові стосунки).

Функціональні стилі обслуговують усі сфери суспільного виробничого життя (офіційно-діловий, науковий, публіцистичний, художній, конфесійний, розмовний, епістолярний стилі). Так, наука, наукова діяльність і все, що ними породжується (форма суспільної свідомості), є сферою дії і базою для формування наукового стилю. Для художнього стилю сферою дії і базою є словесне мистецтво, художня діяльність, творчість і все, створене ними. Для публіцистичного — політика, ідеологія, агітація та інформація. Для офіційно-ділового — право, законотворчість, управління; для конфесійного — віросповідання, конфесійні відношення; для розмовного — повсякденне буття, побутові й виробничі стосунки; для епістолярного — всі сфери дистанційного кореспондентського

спілкування.

Отже, для ефективного пошуку наукових матеріалів потрібно виокремити науковий стиль серед інших стилів.

Розглянемо особливості наукового стилю.

Головні ознаки наукового стилю: інформативність, понятійність і предметність, об'єктивність, логічна послідовність, узагальненість, однозначність, точність, лаконічність, доказовість, переконливість, аналіз, синтез, аргументація, пояснення

причинно-наслідкових відношень, висновки.

Головні мовні засоби: абстрактна лексика, символи, велика кількість термінів, схем, таблиць, графіків, зразків-символів, часто іншомовних слів, наукова фразеологія (стійкі термінологічні словосполучення), цитати, посилання, однозначна загальновживана лексика, безсуб'єктність, безособовість синтаксису, відсутність всього того, що вказувало б на особу автора, його уподобання (емоційно-експресивних синонімів, суфіксів,

багатозначних слів, художніх тропів, індивідуальних неологізмів).

Науковий стиль має такі підстилі:



  • власне науковий (монографія, стаття, наукова доповідь, повідомлення, тези);

  • науково-популярний (виклад наукових даних для нефахівців — книги, статті у неспеціальних журналах);

  • науково-навчальний (підручники, лекції, бесіди тощо).

Власне науковий підстиль має інтернаціональну символіку, універсальні загальнонаукові терміни.

Науково-популярний підстиль використовує й елементи художнього мовлення (епітети, порівняння, метафори), щоб зацікавити читача.

Науково-навчальний характеризується доступністю викладу інформації, спрощеністю системи доведень, програмністю викладу матеріалу, спрямованою на активізацію мислення учня, поступовим, послідовним уведенням термінологічної лексики.

Основне призначення власне наукового підстилю — об'єктивувати наукові відомості і кінцеві результати аналітико-синтетичної переробки даних, основна функція — пояснювати наукову ідею. Основними жанрами власне наукового стилю є монографія, стаття, наукова доповідь, аналітичний звіт.

У межах власне наукового підстилю можна виділити науково-інформативний з жанрами: реферат, огляд, анотація, резюме — та

науково-довідковий (довідники, словники, каталоги).



  • Монографія — це одноосібно написана книга, в якій зібрано, систематизовано й узагальнено матеріал та результати великого наукового дослідження або об'єднано однією темою кілька досліджень. Монографію пишуть, коли зібрано й опрацьовано велику кількість фактичного матеріалу, одержано переконливі висновки, а її автор має свою наукову гіпотезу чи концепцію вирішення значної наукової проблеми. У монографії обов'язково мають бути теоретичні розділи, висновки і наукова література. Стиль викладу — об'єктивований (безсуб’єктивний), логічний, точний і чіткий.

  • Стаття — це невеликого розміру надрукована в часопису або збірнику наукова робота, присвячена певній проблемі, питанню і розрахована на фахівців, які розв'язують цю проблему. Статті бувають повідомлювальні (про нові результати), оглядові, аналітичні (підсумки), дискусійні (про спірні питання).

  • Реферат — це короткий виклад великого дослідження (наприклад, автореферат — виклад основного змісту дисертації) або кількох праць з якоїсь наукової проблеми. В рефераті має бути стисло, але точно відображено основний теоретичний зміст реферованої роботи та довідковий апарат (власні публікації, список наукової літератури).

  • Дисертація — власне науково завершене дослідження, яким відкрито новий напрям у науці, започатковано досі невідомий підхід чи вирішено складну проблему, досліджено ще невідоме або розв'язано низку завдань, що забезпечать наступний поступ у цій проблемі чи галузі. Дисертація має визначені розмір і чітку структуру, стандартні композиційно-мовленнєві форми, які мають бути наповнені оригінальним змістом цього дослідження. Наприклад: мовні формули — актуальність теми дослідження зумовлюється...; наукова новизна роботи полягає...; аналіз дає підстави зробити висновок, що... — продовжуються і підтверджуються мовними конструкціями, що містять конкретний зміст дослідження.

Науково-навчальний підстиль має два основні жанри (види літератури): підручники і навчальні посібники.

У текстотворенні підручника та навчального посібника є спільне і відмінне. До спільних ознак слід віднести: науковість; об'єктивність викладеного матеріалу; відповідність його

навчальній програмі; наступність і перспективність у процесі розгортання навчального курсу; доступність подачі матеріалу, спрямована на активізацію мислення учнів, студентів; поступове і послідовне введення термінологічної лексики; суворе дотримання норм української літературної мови; культура й естетика мовлення автора та ілюстрацій.

Розрізнення мовних жанрів підручника і навчального посібника стосується способів подачі матеріалу і мовного викладу.



  • Підручник подає весь обов'язковий зміст навчального курсу.

  • Навчальний посібник може розглядати не всі розділи, теми, проблеми, а ті, що, на думку автора, потребують особливої уваги, або подавати матеріал ширше. Посібник може давати крім основних або й без них додаткові відомості, тому що він може бути вільнішим, емоційнішим, суб'єктивно-авторським. Часто навчальний посібник є першою спробою підручника і в наступних виданнях переростає в нього16.


Основні ознаки наукового стилю

Розглянемо основні ознаки наукового стилю, які можуть бути використані у для подальшого аналізу текстів.


Логічна послідовність викладу

Характерними ознаками логічної послідовності викладу є точне вираження думки і тісний логічний зв’язок компонентів. Виражається це за допомогою складнопідрядних речень з підрядними причин новими, наслідковими, часовими та ін. Також у простому реченні суб’єкт дії містить її причину, а об’єкт-наслідок. Крім того, зовнішнім проявом причинно-наслідкових зв`язків може бути наявність ключових слів: Перейдемо до... Далі розглянемо… Зупинимося на… Повернемося до… або По-перше, по-друге… Насамперед… Далі… Отже… та інші 15.

Іншими зовнішніми проявами тісного логічного зв`язку можуть бути зв`язні слова в реченні (Наприклад: приєднання: більше того, до того ж; порівняння: подібно до того; протиставлення: проте, однак; черговість: одночасно, потім, спочатку; мету: для цього, з цією метою; результат: отже, таким чином, в результаті, загалом; конкретизацію: наприклад, зокрема).

Логічна послідовність викладення матеріалу також досягається за рахунок чіткого членування матеріалу на окремі пункти (зовнішні прояви:нумерація, буквені позначення, абзаци).



Лінійність тексту проявляється тим, що значна кількість (45%) речень починаються не з підмета.

Об`єктивність викладу забезпечується великим ступенем безособовості у реченнях (Наприклад, зовнішнім проявом цього може бути наявність займенника «ми», який вживається в значенні «я»)

Основні складові частини структури наукового тексту:



  • Введення в тему, виклад методики досліджень. Може або виділятися в окремий розділ («Вступ»), або займати кілька перших абзаців (Проявами може бути наявність ключових фраз: У цій статті… У цій роботі.. Робота присвячена.., та ін.).

  • Виклад результатів дослідження. Ця частина включає в себе основний текст і допоміжний (приклади, цитати, непряма мова (наявність ключових слів: підкреслив, вказав, зазначив, тощо.) та ілюстрації).

  • Підсумки. Розділ може містити заголовок «Висновки», або ключові слова (отже, таким чином, ось чому, тощо.)

Основні характеристики абзацу.

Перше речення абзацу найчастіше мітить ту основну інформацію, що розглядається в абзаці, а отже є визначальною частиною абзацу.

Для абзаців характерна велика частина безособових речень. З різних типів відношень мовця до повідомлюваного, що виражається у головній частині таких речень, у наукових текстах представлені наступні:раціональні відношення, які визначають ступінь вірогідності повідомлення (зрозуміло, відомо, очевидно, вважаємо); по-друге, встановлення джерела повідомлення; і по-третє, визначення порядку розташування частин повідомлення і висновків з повідомлюваного (це значить, звідси випливає).

Характерні риси присудка у реченнях наукового стилю:



  1. Вживання дієслів із загальним значенням оцінки: оцінювати як, кваліфікувати як, визначати як, усвідомлювати як, розцінювати як, сприймати як, розглядати як та ін.

  2. Дієслова із значенням становлення: виникати як, розвиватися як, складатися як, формуватися як.

  3. Фігурувати як,репрезентуватися як, вживатися як, тощо.


Інші ознаки наукового стилю


  • Абстрактна лексика

  • Морфологічні дієслова недосконалого виду

  • Дієслова у формі теперішнього часу

  • Дієслова-зв`язки в складеному присудку (є, полягає)

  • Відсутність окличних пропозицій


Лексичні ознаки наукового стилю


  • Обмежена кількість загальновживаних слів

  • Кількість термінів – 21-26%. Термін – назва поняття, властивого тій чи іншій галузі науки.

Два основні погляди на склад наукового тексту з точки зору лексики:

  • Загальновживана лексика, “ специфічна ” лексика, термінологія

  • Загальновживана лексика і термінологія (міжгалузева і галузева термінологія) 15


УДК
Окремою ознакою наукового матеріалу є наявність універсальної десяткової класифікації (УДК).

Універсальна десяткова класифікація – це міжнародна бібліотечно-бібліографічна класифікація, розроблена Міжнародним бібліографічним інститутом у 1895-1905 рр. на основі "Десяткової класифікації" американського бібліотекаря Дьюї.

  • Сучасну назву отримала в 2-му виданні (1927-1932 рр.).

  • Удосконалення УДК координується Міжнародною федерацією з документації у відповідності з спеціальними правилами.

  • УДК — ієрархічна комбінаційна класифікація, що включає 3 частини: основні таблиці, таблиці визначників (типових рубрик) і алфавітно-предметний покажчик.

  • Індексування логічне, цифрове, використовуються арабські цифри.

  • Глибока деталізація основних таблиць і значні можливості введення нових рубрик за допомогою визначників дозволяють вважати УДК однією з найбільш розроблених універсальних класифікацій.

  • 2000 року Книжкова палата України видала україномовну версію УДК6.

Підвищення ефективності пошуку наукової інформації


Як вже було зазначено у попередніх розділах, основною проблемою звичайних пошукових систем є велика кількість різноманітної інформації і відсутність ефективних методів фільтрації матеріалів саме наукової тематики.

Спеціалізовані пошукові системи натомість не охоплюють всі матеріали, що наявні у Всесвітній павутині, зосереджуючись винятково на великих наукових сайтах, матеріалах наданих видавництвами, тощо. Це робить недоступними матеріали, які розміщені на особистих сторінках, форумах, тощо, що особливо характерне для української частини Всесвітньої мережі.

Якщо врахувати, що матеріали наукової тематики написані саме науковим стилем, то одним з варіантів підвищення ефективності пошуку є перевірка стилістики результатів отриманих від пошукових систем, і включення даних матеріалів до остаточних результатів пошуку якщо вони належить до текстів наукової тематики, або вилучення їх з результатів в іншому випадку. По-перше, таким чином можна позбавитись так званого «шуму», тобто не релевантних за спрямуванням документів. По-друге, при даному варіанті враховується сам текст, тобто його найновіша версія, на відміну від пошуковою системи, у якій пошук відбувається за проіндексованим раніше текстом. Такий підхід виключає потрапляння неробочих посилань у остаточні результати пошуку.

Найважливішою проблемою при реалізації фільтрації матеріалів на основі стильової приналежності є автоматизація, оскільки значна частина критеріїв стилістичного аналізу тексту, прийнятих у мовознавстві, по-перше, потребують розуміння змісту тексту. По-друге, потребують значного аналізу тексту, що в умовах автоматичного пошуку може значно зменшити його швидкість.



У даній роботі було відібрано наступні критерії виявлення стильової приналежності документа:

  • Структура. Може бути виявлена явно (у документі є чітке розмежування на вступ, основну частину, висновки), неявно (у документі немає чіткого розмежування, проте використовуючи ознаки різних частин структури з попереднього розділу, аналіз тексту вказує їхню наявність), частково (є лише певні ознаки наявності структури наукового документа), зовсім відсутня.

  • УДК. Може бути виявлена або ні. При цьому відсутність УДК не свідчить про те, що документ не належить до наукових матеріалів.

  • Терміни. Наявність і частота використання термінів є одною з основних ознак наукових матеріалів. Проте, по-перше, аналіз наявності всіх можливих термінів для даної галузі потребує значних обчислювальних потужностей. По-друге, через постійне виникнення нових термінів, що особливо характерне для дисциплін, що розвиваються (наприклад, комп`ютерних наук), деякі з них просто не можуть бути охоплені. Тому в подальшому реалізовано лише перевірку наявності найбільш загальновживаних термінів, хоча існує можливість доповнення або уточнення цих термінів користувачем.

  • Спеціальна загальнонаукова лексика. Наявність спеціальних слів характерних для наукового функціонального стилю і відсутність тих, що характерні винятково для інших стилів, наприклад, розмовного, художнього, тощо.



Реалізація програми пошуку наукових матеріалів


Загальну схему програми можна представити наступним чином:



  • Пошукові системи WWW. В якості систем, до яких звертається програма з запитами використовуються найбільші пошукові системи Google, Yahoo, AllTheWeb, Ask, MSN.

  • Модуль доступу до пошукових систем. Отримує запити користувача, передає їх пошуковим системам та отримує результати від пошукових систем. При отриманні однакових результатів від різних пошукових систем залишаються лише унікальні, а вага таких результатів переобчислюється. Отримані результати передаються стилістичному аналізатору.

  • Стилістичний аналізатор. На підставі заданих користувачем налаштувань робить висновок про належність даного документу до наукового функціонального стилю, і включає або ні даний документ до отриманої користувачем вибірки.

  • Інтерфейс користувача. Отримує від користувача запити та повертає йому результати у зручній формі.

Можливості програми:

  • Вибір максимальної кількості посилань, що потрібно знайти.

  • Вибір конкретної пошукової системи.

  • Завдання користувачем термінів з даної предметної області.

  • Вирахування частоти та ваги використання вказаних термінів.

  • Ранжування результатів з урахуванням позиції документу у результатах пошуку отриманих від пошукової системи та частоти використання наукових термінів.

  • Режими роботи:

    • Точний (Обов`язкова наявність структури, темінів, лексики, загальнонаукової тематики).

    • Вибірковий (Користувач вказує параметри, які є обов’язковими та які є бажаними).

    • Повне відображення результатів пошуку (Користувач отримує всі проаналізовані посилання з висновками стилістичного аналізатора).

Програма працює з документами в форматі html. Документи у форматі pdf переводяться в html за допомогою спеціальної програми.

Використані засоби

Програму було написано на C#

Пошукові системи, задіяні в процесі пошуку:


  • Google

  • Yahoo

  • AllTheWeb

  • Ask

  • MSN


Вимоги програми

  • Наявність доступу до Всесвітньої павутини

  • NET Framework 2.0 і вище.

  • Наявність програми конвертації pdf документів в html.


Приклад роботи програми


Як видно з цього прикладу, лише у одному з 20 отриманих результатів пошуку виявлено ознаки наукового стилю.

Висновки


Проблема пошуку наукової інформації стала особливо актуальною протягом останніх років, оскільки зі зростанням Internet пошук таких матеріалів значно ускладнився.

Розглянуті у цій роботі системи пошуку наукових матеріалів виявились достатньо ефективними для пошуку англомовних матеріалів, проте через обмеженість бази проіндексованих документів не можуть бути єдиним ефективним засобом пошуку україномовних наукових матеріалів.

У даній роботі було розроблено методи визначення приналежності документа до наукового стилю. При цьому було визначено основні критерії наукового стилю, які можуть бути застосовані у пошуковій системі для прийняття рішення про приналежність документа до наукової тематики:



  • Структура документу наукового стилю

  • Наявність УДК.

  • Терміни.

  • Спеціальна загальнонаукова лексика.

Ці методи було застосовано для створення програми, яка з використанням цих критеріїв і потужної бази пошукових систем здійснює пошук україномовних наукових матеріалів у пошукових системах та аналізує отримані результати на їх приналежність до наукового стилю, а отже й відповідність запиту користувача.

Як подальші розробки цієї теми можна визначити знаходження оптимальних коефіцієнтів при обчисленні ваги термінів, ваги початкової позиції документа у результатах пошукових систем та найбільш оптимальне врахування наявності структури та УДК для ранжування результатів. Проте навіть у такій реалізації програма здатна значно поліпшити релевантність результатів пошуку.


Джерела
Веб-ресурси


    1. Amy N. Langville and Carl D. Meyer: Google's PageRank and Beyond, Princeton, July 3, 2006 http://press.princeton.edu/chapters/s8216.pdf




    1. S.Brin, L.Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine, Stanford, 2000. http://www.site.uottawa.ca/~stan/csi5389/readings/google.pdf



    1. D.Lewandowski A three-year study on the freshness of Web search engine databases, January 17, 2008 http://www.durchdenken.de/lewandowski/doc/JIS2008_preprint.pdf




    1. D.Lewandowski. Web searching, search engines and Information Retrieval, May 2005 http://www.durchdenken.de/lewandowski/doc/isu_preprint.pdf



    1. About Google Scholar http://scholar.google.com.ua/intl/en/scholar/about.html




    1. Універсальна десяткова класифікація www.nbuv.gov.ua/libdoc/udc.htm



    1. CiteSeerx

http://citeseerx.ist.psu.edu/about/site


    1. CiteSeer

http://citeseer.ist.psu.edu/citeseer.html


    1. About Scirus...

http://www.scirus.com/srsapp/aboutus/


    1. An interview with Anurag Acharya, Google Scholar lead engineer. April 1, 2008 http://www.google.com/librariancenter/articles/0612_01.html




    1. Презентація "Google Scholar: Як полегшити пошук і читання наукової літератури", 21.02.2008  http://www.publications.nas.gov.ua/news/Pages/Google.aspx




    1. C. Sherman, G Price. The invisible web: uncovering sources search engines can't see.

http://www.jacso.info/PDFs/sherman-invisible-web.pdf


    1. Станіслав Т. Пошук інформації в комп`ютерних мережах, нові підходи

http://www.searchengines.ru/articles/004603.html


    1. Hannah M. Noll. Where Google Stands on Art: An Evaluation of Content Coverage in Online Databases. April, 2008 http://etd.ils.unc.edu/dspace/bitstream/1901/499/1/hannahnoll.pdf

Книги


    1. Коваль А.П. Науковий стиль сучасної української мови. – К.: Видавництво Київського університету, 1970.




    1. Л.Л.МАЦЬКО,О.М.СИДОРЕНКО,О.М.МАЦЬКО. Стилістика української мови. - Київ:Вища школа, 2003.






2 S.Brin, L.Page: The Anatomy of a Large-Scale Hypertextual Web Search Engine, Stanford, 2000

1 Amy N. Langville and Carl D. Meyer: Google's PageRank and Beyond, Princeton, July 3, 2006.


3 D.Lewandowski A three-year study on the freshness of Web search engine databases, January 17, 2008


12 C. Sherman, G Price. The invisible web: uncovering sources search engines can't see.

9 About Scirus... http://www.scirus.com/srsapp/aboutus/

8 CiteSeer http://citeseer.ist.psu.edu/citeseer.html

7CiteSeerx http://citeseerx.ist.psu.edu/about/site

11 Презентація "Google Scholar: Як полегшити пошук і читання наукової літератури", 21.02.2008

11 An interview with Anurag Acharya, Google Scholar lead engineer. April 1, 2008

http://www.google.com/librariancenter/articles/0612_01.html


5 About Google Scholar http://scholar.google.com.ua/intl/en/scholar/about.html

16 Л.Л.МАЦЬКО,О.М.СИДОРЕНКО,О.М.МАЦЬКО. Стилістика української мови. - Київ:Вища школа, 2003.

15 Коваль А.П. Науковий стиль сучасної української мови. – К.: Видавництво Київського університету, 1970. ст. 47


15 Коваль А.П. Науковий стиль сучасної української мови. – К.: Видавництво Київського університету, 1970. ст. 20-80

6 Універсальна десяткова класифікація www.nbuv.gov.ua/libdoc/udc.htm



База даних захищена авторським правом ©lecture.in.ua 2016
звернутися до адміністрації

    Головна сторінка