Інформаційний пошук!!!

Матеріал з wiki
Перейти до: навігація, пошук
Onpage keywords chain search with * wildcard. Example: sear* my nam* will find Searh my names and search my Name


pis M.

Інформаці́йний по́шук (ІП) (англ. Information retrieval) — наука про пошук неструктурованої документальної інформації. Особливо це відноситься до пошуку інформації в документах, пошук самих документів, добуття метаданих з документів, пошуку тексту, зображень, відео та звуку у локальних реляційних базах даних, у гіпертекстових базах даних таких, як Інтернет та локальні інтранет. Інформаційний пошук — велика міждисциплінарна область науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики. Вперше виділив як міждисциплінарну галузь відомий угорський дослідник Золтон Жулен у 1989 році .

Автоматичні системи інформаційного пошуку використовують для зменшення так званого «інформаційного перевантаження». Багато університетів та публічних бібліотек використовують системи ІП для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті.

Об'єктом інформаційного пошуку є текстова інформація, зображення, аудіо, відео інформація.

Проблематика

З інформаційним пошуком змикаються проблеми:
● розсилки інформації (information routing);
● сортування інформації (information filtering);
● упорядкування (класифікація) інформації (information categorization);
● відбір інформації (information extraction).

Для інформаційного пошуку розробляють:
● алгоритми інформаційного пошуку (retrieval algorithms);
● підходи інформаційного пошуку(retrieval approaches);
● стратегії інформаційного пошуку (retrieval strategies).

Для його здійснення створюють:
● методи інформаційного пошуку (retrieval utilities);
● засоби інформаційного пошуку (information retrieval systems);
● комп'ютерні пошукові програми (search engines).

До проблем інформаційного пошуку належать питання:
● представлення даних, інформації, знань (data, information, knowledge);
● представлення інформації в сучасних інформаційних сховищах (representation of information);
● багатомовний інформаційний пошук (cross-language information retrieval);
● одночасний інформаційний пошук (parallel information retrieval);
● розподілений інформаційний пошук (distributed information retrieval);
● суспільний інформаційний пошук (social information retrieval)

Напрям інформаційний пошук відносять до проблем:
● застосовної (прикладної) лінгвістики (applied linguistics);
● обробки природної мови (natural language processing);

Завдання

Завданням інформаційного пошуку є знаходження відповідних (до пошукового запиту) інформаційних об'єктів, або документів серед доступного для пошуку матеріалу.
Завдання для інформаційного пошуку задається у вигляді інформаційного запиту (query), який може містити слова, фрази чи речення або комбінацію їх. Переважна більшість пошукових систем орієнтована на роботу з пошуковими термінами — словами або словосполученнями, які пошукова система розпізнає як одне ціле.
Для здійснення інформаційного пошуку потрібно мати збірку інформаційних об'єктів (бібліотека, комп'ютерні файли) і систему (алгоритм або програму) яка здійснює пошук. Для здійснення інформаційного пошуку користувач (людина або інформаційна система) формує інформаційний запит (information query). Результатом пошукової роботи є список документів який укладається згідно з певним принципом. Такий список називають впорядкованим (ranked list, ranked results).
Пошукова система переглядає всі доступні інформаційні одиниці (документи) зі збірки і відбирає документи відповідні до інформаційного запиту. Оскільки реальні пошукові системи знаходять не всі відповідні документи, говорять про точність пошукових систем (system accuracy). Результатом роботи пошукової системи є список відібраних документів (retrieved documents list), серед яких є відповідні до запиту документи (relevant documents). Для ідеальної пошукової системи список відібраних документів та відповідних документів повинні збігатися. В реальних пошукових системах в списках відібраних документів знаходяться і невідповідні до запиту документи. Тому говорять про ефективність пошукових систем.

Ефективність

Ефективність пошукових систем оцінюється двома параметрами: пошукова відповідність (precision) та пошукова якість (recall). Пошукова відповідність визначає частку відповідних документів серед відібраних на запит. Пошукова відповідність визначає якість отриманого результату інформаційного пошуку. Пошукова якість визначає частку отриманих системою відповідних до запиту документів серед загального числа відповідних до запиту документів у збірці. Загальне число відповідних до запиту документів завжди є невідомим і може бути встановлене лише при повному перегляді збірки людиною. Крім того роботу пошукових систем оцінюють швидкодією — часом, за який отримують список відповідних до запиту документів. Інформаційний пошук — велика міждисциплінарна область науки, яка стоїть на перетині когнітивної психології, інформатики, інформаційного дизайну, лінгвістики, семіотики, бібліотечної справи, та статистики. Автоматичні системи інформаційного пошуку використовують для зменшення так званого «інформаційного перевантаження». Багато університетів та публічних бібліотек використовують системи ІП для полегшення доступу до книжок, журналів та інших документів. Найвідомішим прикладом систем ІП можна назвати пошукові системи в Інтернеті.

Developed by Інститут Програмних Систем