ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
«УТВЕРЖДАЮ» декан АВТФ, к.т.н., доц. ____________ С. А. Гайворонский „___“ ________...
44 downloads
230 Views
322KB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
«УТВЕРЖДАЮ» декан АВТФ, к.т.н., доц. ____________ С. А. Гайворонский „___“ ____________2006 г.
ПОИСКОВЫЕ СИСТЕМЫ Методические указания к выполнению лабораторной работы № 1 по курсу «Информационные технологии» для студентов заочной формы обучения
Томск—2006
Информационные технологии Лабораторная работа № 1
2
§ 1. ЦЕЛЬ РАБОТЫ Настоящая лабораторная работа имеет следующие цели: 1) познакомить с наиболее распространёнными поисковыми системами; 2) приучить к мысли, что в Интернете можно найти ответ практически на любой вопрос; 3) приучить к мысли, что проще спросить у поисковой системы, чем у человека.
§ 2. ЗНАКОМСТВО С ПОИСКОВЫМИ СИСТЕМАМИ 2.1 ОПРЕДЕЛЕНИЕ ПОИСКОВОЙ СИСТЕМЫ По определению Глоссария.ру, поисковой системой называют веб-сайт, на котором пользователь по заданному запросу может получить ссылки на сайты, соответствующие этому запросу. Помимо термина „поисковая система“ в русском языке широко используется слово „поисковик“. В английском языке то же самое называется search engine, или просто search. 2.2 ВИДЫ ПОИСКОВЫХ СИСТЕМ Традиционные и привычные всем поисковые системы ищут информацию на вебсайтах. Однако не стоит забывать об отдельных системах, предназначенных для поиска файлов на ftp-серверах, товаров в интернет-магазинах, новостей на информационных сайтах, сообщений в блогах и форумах и т.п. В настоящей работе мы уделим внимание традиционным поисковикам. Кроме того, поисковые системы можно разделить по географическому признаку на: - глобальные — поиск по всему миру, в основном на английском языке; - региональные — поиск по стране или группе стран с родственным языком (например, русский, украинский, белорусский); - местные — поиск в отдельно взятом городе или сети (например, по Томску или Сочи). Безусловным преимуществом глобальных поисковиков следует считать максимально возможный охват (только представить себе: вся Америка, вся Европа, вся Россия, вся Азия и ещё добрая сотня стран с других континентов). Сегодня абсолютным лидером среди глобальных поисковых систем считается Google, появившийся в 1998 г. До него уже существовали Inktomi (с 1996 г.), Alta Vista (с 1995 г.) и некоторые другие. Однако у глобальных систем возник целый ряд проблем: поисковик выдаёт ссылки на сайты, далеко не всегда написанные на известном пользователю языке, он также не учитывает особенности каждого существующего языка, а одно и то же слово в разных языках может означать разные вещи. Поэтому широкое распространение получили региональные поисковые системы. В России это главным образом Rambler (с 1996 г.) и Яндекс (с 1997 г.). Их преимущество состоит в том, что они созданы специально для работы с русским контентом и общаются с пользователем на одном с ним языке. В некоторых городах развиваются местные поисковые системы. Например, в Томске с его неограниченным внутренним трафиком существует сайт seek.tomsk.ru, который также осуществляет поиск по Тонету. Однако далеко не всех пользователей устраивают результаты его работы, поэтому уже не один год идут разговоры о создании в Томске полноценной поисковой системы. Томский политехнический университет Д. Афонин, январь 2006 г.
Информационные технологии Лабораторная работа № 1
3
2.3 ПРИНЦИП РАБОТЫ ПОИСКОВОЙ СИСТЕМЫ Как правило, поисковая система состоит из трёх компонент: 1) робота; 2) базы данных; 3) обработчика запросов. Робот систематически обходит почти все сайты как обычный пользователь и записывает их содержимое в базу данных. Этот процесс называют индексацией. Позже, когда пользователь введёт запрос, программа обратится к базе данных и по ключевым словам выдаст пользователю информацию о тех страницах, которые наиболее полно соответствуют запросу. Интернет — живая динамическая система, которая меняется быстрее, чем об этом успевает узнать поисковый робот, — пишет Интернетско-русский разговорник Яндекса. Поэтому иногда найденные документы могут оказаться изменёнными или вообще не существовать. На этот случай большинство поисковиков имеют возможность показать пользователю страницу даже после того, как оригинал перестал соответствовать образу. Скорость индексации и размер поисковой базы данных являются важными характеристиками поисковой машины. Программа-обработчик сортирует ссылки на документы по мере их соответствия запросу. Этот критерий называется релевантностью. Способ вычисления релевантности является собственным ноу-хау каждого поисковика, поэтому в ответ на один и тот же запрос разные системы выдают разные результаты. Например, на запрос «велосипед» Google первой выдаст ссылку на сайт agbike.spb.ru; а Яндекс в ответ на тот же запрос ссылку на agbike.spb.ru выдаст четвёртой, а на первом месте окажется velosite.ru. 2.4 УЧЁТ МОРФОЛОГИИ ЯЗЫКА Наиболее существенной проблемой в развитии поисковых систем в русском Интернете стала развитая морфология языка — когда одно и то же слово может быть представлено в разных формах: единственном или множественном числе и одном из шести падежей. Таблица 1.1 Разные формы слова «форточка» Число: Падеж: единственное множественное форточка форточки именительный форточку форточки родительный форточке форточкам дательный форточку форточки винительный форточкой форточками творительный форточке форточках предложный Если задать поисковику запросы «форточка», «форточке», «форточками» и т.п., то он выдаст одинаковые результаты. При этом у слов ещё могут быть разные приставки, суффиксов и окончания. Всё это создавало и создаёт серьёзные трудности в развитии поисковых систем. Правильная поисковая система должна учитывать все особенности языка и причуды пользователя. В каком бы падеже он ни вводил ключевое слово, система должна его понимать.
Томский политехнический университет Д. Афонин, январь 2006 г.
Информационные технологии Лабораторная работа № 1
4
§ 3. ОХВАТ ПОИСКОВЫХ СИСТЕМ Рост числа сайтов, разнообразие их содержимого привело к тому, что сегодня мы говорим о том, что в Сети можно найти ответы практически на все вопросы, которые интересуют простого обывателя. Привыкнуть к мысли, что ответ на ваш вопрос можно легко найти в Интернете очень сложно. Объяснить этот феномен не менее сложно, однако практика показывает — в людях не срабатывает рефлекс «вопрос — ответ в Интернете», и они мучаются в попытках собрать информацию по крупицам от друзей, знакомых, экспертов, вычитать её в газетах или энциклопедиях. Все солидные энциклопедии уже давно оцифрованы, точки зрения экспертов изложены на информационных сайтах, а технические характеристики двигателя ДПТ-4,0 доступны на сайте производителя. Безусловно, по понятным причинам в Интернете нельзя найти эксклюзивного бабушкиного рецепта засолки огурцов, однако коллекции подобных рецептов не имеет смысла собирать по садово-огородным газетам. Во-первых, потому что проще открыть браузер, чем купить газету, а во-вторых — подобные газеты сами тянут информацию из Интернета. Объём не отображённой в Интернете информации с каждым днём сужается, и, несмотря на то, что вряд ли когда-нибудь он станет равным нулю, не использовать интернет-средства поиска информации как минимум означает потратить лишнее время.
§ 4. ОХВАТ ПОИСКОВЫХ СИСТЕМ-2 Хотелось бы ещё раз, отдельным параграфом подчеркнуть, что в Интернете наверняка есть ответ на любой ваш вопрос.
§ 5. ПРИМЕНЕНИЕ ПОИСКОВЫХ СИСТЕМ Как известно, правильная постановка вопроса существенно облегчает поиск ответа на него. Умение сформулировать вопрос не раз выручит в трудной ситуации. Однако в случае с поисковыми системами чёткая формулировка вопроса не всегда нужна — гораздо важнее подобрать правильные ключевые слова. Научная постановка вопроса Технологический процесс засолки огурцов Технические характеристики двигателя постоянного тока ДПТ-4,0 Определение термина „поисковая система“ Область научных интересов д.т.н. проф. Малышенко А. М. Полоса полного солнечного затмения 29 марта 2006 г. Текст песни «Звёзды-3000» группы «Смысловые галлюцинации» Номер телефона справочной службы железнодорожного вокзала Томск-I Когда В. Кресс назначен губернатором Томской обл.? Кто такой Сергей Пархоменко? * — поиск в Яндекс.Словарях Томский политехнический университет Д. Афонин, январь 2006 г.
Ключевые слова для поиска рецепт засолки огурцов ДПТ-4,0 характеристики поисковая система* Малышенко научные интересы солнечное затмение Звёзды 3000 текст телефон справочной вокзала Томск-1 Кресс назначен губернатор Сергей Пархоменко
Информационные технологии Лабораторная работа № 1
5
Стоит помнить, что скорее всего в Интернете не найти корректного ответа на вопросы типа „что сегодня ел на завтрак Борис Ельцин?“ или „в чём смысл жизни?“. Однако Интернет может существенно помочь в поиске ответа: найти номер телефона резиденции Ельцина в Екатеринбурге или изучить различные философские течения, также пытающиеся отыскать смысл жизни. Для наглядности попробуем вместе найти ответ на вопрос, кто такой Сергей Пархоменко. Попробуем задать запрос «Сергей Пархоменко» Яндексу:
И вот какие результаты выдаст Яндекс:
Первая ссылка — Пархоменко заявил об уходе с поста главного редактора «Еженедельного журнала», который совпал по времени со скандалом вокруг НТВ. Хорошо. По крайней мере, мы знаем, что С. Пархоменко был главным редактором «Еженедельного журнала». Вторая ссылка — с украинского музыкального портала, о лидере какой-то команды, очевидно, музыкальной. Но помнится, он был главным редактором журнала. А теперь ушёл в шоу-бизнес? Или это другой Сергей Пархоменко? Пока не ясно. Третья ссылка — беседа о Путине с директором издательства «Колибри». Есть основания полагать, что речь идёт о первом Сергее Пархоменко. Четвёртая ссылка — опять про отставку с поста главного редактора. Пятая ссылка — беседа с главным редактором Интернет-журнала «Настоящие Итоги». Томский политехнический университет Д. Афонин, январь 2006 г.
Информационные технологии Лабораторная работа № 1
6
6. Радиостанция Эхо Москвы. 7. Дебаты о политике и культуре. 8. В 2001 г. С. Пархоменко был главным редактором «Еженедельного журнала». 9. Обозреватель «Эха Москвы» С. Пархоменко вызван в Генпрокуратуру. 10. Известный журналист и обозреватель С. Пархоменко. Просмотрев первую страницу Яндекса, мы уже примерно представляем себе, о ком идёт речь: о журналисте, обозревателе, книгоиздателе и, возможно, лидере музыкальной группы. Теперь если покликать по предложенным Яндексом ссылкам, можно представить себе портрет С. Пархоменко более чётко. Но мы попробуем поискать «Пархоменко» в других поисковых системах. Например, в Рамблере.
Rambler выдал на первой странице два десятка результатов. Посмотрим повнимательнее, что же он предложил. 1. Гостиная Яндекса — это мы уже видели. 2. Радиостанция «Эхо Москвы» — тоже видели. 3. Радио Свобода: Наши гости. 4. Рамблер-люди года-2002: СМИ и периодика: Сергей Пархоменко. А вот это интересно. Похоже, здесь мы сразу найдём всю интересующую нас информацию. Правда, сразу видно, что это будет информация до 2002 г. И действительно, по предложенному Рамблером адресу есть полная биография Сергея Пархоменко до 2002 г. Сравним результаты с поиском в Google:
Четвёртой Гугль выдаёт ссылку на страницу Сергея Пархоменко на сайте peoples.ru: www.peoples.ru/art/music/rep/serega/, а пятой — тоже на страницу Сергея Пархоменко, но по другому адресу: www.peoples.ru/state/correspondent/parhomenko/. Уже по адресам этих страниц мы можем окончательно убедиться, что речь идёт о двух разных людях, один из которых — известный в России журналист, а другой — известный в Беларуси рэп-музыкант. А теперь представьте, что бы вы делали, если бы не было Интернета — вам бы пришлось спрашивать у друзей и знакомых, штудировать кучу литературы, и в конце концов — не найти ответа и забыть.
Томский политехнический университет Д. Афонин, январь 2006 г.
Информационные технологии Лабораторная работа № 1
7
§ 6. ПРОГРАММА РАБОТЫ Попробуйте с помощью поисковых систем найти ответы на следующие вопросы: - есть ли в телефоне Nokia 2300 радиоприёмник? - на каком километре Кругобайкальской железной дороги находится посёлок Шарыжалгай? - какова дата погашения облигаций Томской обл. № 31018? - как прореагировал российский МИД на последнее заявление Кондолизы Райс? - что такое „информационные технологии“? Найденные определения информационных технологий выпишите в тетрадку — они пригодятся на лекции. Не забывайте, что помимо русскоязычных Яндекса и Рамблера, можно задавать запросы на английском языке к Google.
§ 7. КОНТРОЛЬНЫЕ ВОПРОСЫ Подготовьтесь к защите лабораторной работы: вы должны не только найти ответы на вопросы § 6, но и ответить на контрольные вопросы, а также сформулировать вывод по лабораторной работе. 1) Что такое поисковая система? 2) Какие вы знаете виды поисковых систем? 3) Как работает поисковая система? 4) Приведите в качестве примера по 2—3 вопроса, на которые можно найти ответ в Интернете с помощью поисковой системы, и на которые — нельзя. 5) Что вы сделаете, если вам понадобится узнать, сколько стоит проезд в поезде до Москвы? 6) Когда появилась первая в Интернете поисковая система и как она называлась?
Томский политехнический университет Д. Афонин, январь 2006 г.