softhelp.ru! | статьи теметики - сеть и сайты

Использование индекса цитирования в поисковых системах

Citation Index или индекс цитируемости (цитирования) показывает процесс цитирований публикаций между собой. Он позволяет увидеть, какие новые документы ссылаются на более ранние тексты. Удобно, что ИЦ может определяться как для нужных текстов, так и для какого-нибудь автора, например, учёного. Есть разные виды ИЦ, часть их используется для работы на Интернет-ресурсах с Интернет-документами. Число индекса цитирования показывает количество использований какого-либо участка текста, текстового документа, публикации. В индексации не участвуют обзорные журналы, конференции. Если рассматривать поисковые системы типа Яндекса и другие, то ИЦ – это число обратных ссылок с разных ресурсов. Не учитываются ссылки с некоторых площадок, это:
• доски объявлений;
• немодерируемые каталоги;
• сетевые конференции;
• XSS ссылки;
• ссылки неподконтрольные хозяевам ресурсов;
• страницы статистики серверов.
Каталогом Апорт используется взвешенный индекс цитируемости.

CY (CitationYandex) - аббревиатура Яндекса для обозначения ИЦ, выбрана по аналогии с другими службами, типа AHCI, SSCI, SCI, по идее должно быть - YCI.
ИЦ рассчитывается из ссылочного графа и необходим как один из множества факторов при ранжировании страниц сайтов к поисковой выдаче, он не является определяющим. Не стоит смешивать обычный ИЦ с другими видами индексации, тематическим и взвешенным, о них пойдёт речь далее. Обычный индекс цитируемости является целым числом не зависящим от тематики ссылающихся друг на друга Интернет-документов.

Статья “Индексы цитирования в науке: новое измерение информации через объединение идей” [1], опубликованная в журнале Science в июле 1995 года, посвящена предложению использовать вместо индекса цитирования фактор влияния. Эту идею предложил автор, Евген Гарфилд.

Мера важности среди научных журналов определяется Импакт фактором (англ. Impact Factor), IF используется и Интернет-ресурсами для определения значимости ресурса. Для этого берётся отношение среднего количества цитирований определённого документа (статьи и др.) к промежутку времени (для научных журналов обычно 2 года). Вычисляется он по формуле IF2008 = A/B, где А – это число цитирований в продолжении 2008 года статей, опубликованных ранее (2006-2007 гг.) [4]. В – общее количество публикаций, напечатанных в журнале с 2006 по 2007 год. При расчёте Импакт фактора существует нюанс, в число-знаменатель не входят: списки опечаток, известия, новостные статьи. Поэтому новые издания получают свой Impact Factor в прошествии двух лет с момента издания первого номера, до этого времени их IF = 0, существуют и другие исключения.

Импакт фактор является честной оценкой и на практике показывает рейтинг «престижности» издания. Он медленно изменяется и в повседневной жизни теряет свою актуальность как инструмент, однако может демонстрировать определённую популярность издания.

Из-за того, что некоторые журналы публикуют письма, передовицы, то есть несамостоятельные работы, определение IF не всегда является корректным средним значением. В знаменателе Импакт фактора несамостоятельные работы не учитываются, на них редко ссылаются. Однако их разовые редкие цитирования учитываются в числителе, что доказывает не всегда точное среднее значение IF статей в сборнике. Отклонение может быть существенным для журналов со множеством таких «несамостоятельных работ». С другой стороны для, например, математических журналов, это отклонение не столь значительно, а скорее минимально.

Импакт фактор определяется за два года для того, чтобы показать текущую статистику. Такой период особенно хорош для био-медицинских журналов, потому что отклик на статьи идёт сразу, они получают огромное число ссылок за короткий период времени. Для журналов, освещающих точные науки, данный период не совсем удачен, отклики на материал чаще появляются по истечении двух лет после публикации. Это показали исследования более трёх миллионов цитирований журналов, посвящённых математике. Выяснилось, что более 90% ссылок статьи получили за пределами временного промежутка 2 года. Таким образом, IF потерял большинство цитат и основан на 10% активных ссылок.

Далее в представленном графике показан возраст цитирований материалов, опубликованных в 2003 году. Он состоит и четырёх областей. В Импакт фактор входят ссылки на статьи 2001-2002 гг., остальные цитаты в IF (Данные от ThomsonScientific) [2] не учитываются.

Злоупотреблений, связанные с употреблением Импакт фактора вызывают много критики, его обоснованность во многих случаях вызывает ряд сомнений, им легко манипулировать. Поисковая интернет-система также зависима от IF, потому что Интернет-документы являются виртуальными публикациями журналов, которые выступают владельцами определённых Интернет-ресурсов. Получается, что работа над сайтом видна только через два года. Даже если по истечение одного года работу над ним приостановили, уровень IF будет самым высоким через 2 года (для Интернет-документов другой период), определяя высокую ранжированность сайта, а затем при отсутствии новых цитирований начнёт падать.

Ценность документа для информационно-поисковых систем в современных условиях представляют следующие факторы (информационные ключи):
1. Заголовок статьи (title);
2. Автор;
3. Название сборника;
4. Индекс цитируемости;
5. Дата публикации документа.

Индекс цитирования (с некоторыми ограничениями) является основным информационным ключом документа. Он не затрагивает структуру тематических ссылок и поэтому у разных по значимости статей может быть один и тот же индекс.

Этот момент заставил внести изменения в стандарты поисковиков. Чтобы учитывать не только количество цитат, но и их качество, вводится новое понятие – вес ссылки, что очень важно для конкретных пользователей.
Итак, для определения значимости документа ранее использовался только Импакт фактор. Его недостатки:
1. Отсутствие нормализованности величины.
2. Короткий временной промежуток для взятия ссылок.
3. Не учитывается научность.
Новый фактор, введённый для определения популярности - Popularity Factor, его величина рассчитывается по формуле:
,

где PF(v,t) – фактическая популярность в рассматриваемый год t исследуемого сборника публикаций; P — множество сборников ссылающихся на исследуемый сборник v в рассматриваемый год; N — общее количество статей, опубликованных в исследуемый год; w(i) – частотность цитируемости сборником i сборника v, N(i) – общее количество ссылок в сборнике i.

Сумма квадратов PF для всех сборников равна 1, показывая, что PF(v,t) является нормализованной величиной. Фактор популярности создан для электронных библиотек, но сегодня такая система отбора интернет-документов для ранжирования характерна для всех поисковых систем. Каждая поисковая система дала своё название PF: Google – PageRank; Яндекс – вИЦ, взвешенный индекс цитирования; Апорт – ИЦ (как указывалось выше).
Вывод, вИЦ и PageRank, в Яндексе и Google совпадают. Формула вычисления PageRank совпадает с формулой (1) , где w(i)=1 (одинаковые ссылки, которые учитываются), однако если пользователь переходит по ссылке, то это не учитывается (отсутствует параметр 1-d).

Оба параметра рассчитываются из ссылочного графа: ссылочный фактор ранжирования, взвешенный индекс цитирования.

Таким образом, чтобы узнать приблизительный вИЦ для своих страниц, их можно проверить любым чекером в PageRank. Для того, чтобы исследовался более полный ссылочный граф желательно задействовать поисковик Google, потому что Яндекс индексирует только русскоязычные документы и лишь некоторые самые популярные западные страницы, что усекает ссылочный граф.

Проверка тИЦ (тематического индекса цитирования) своих сайтов во время апдейтов не всем понятна, также немногим ясно для чего она существует и почему ей нужно уделять внимание. По мнению Яндекса, тИЦ показывает авторитетность сайта, учитывая качество ссылок ведущих на проверяемый ресурс из Интернета. Веб-мастера считают, что тематическое индексирование сайта (тИЦ) позволяет получить характеристику сайта с точки выгодности дальнейшей разработки в направлении коммерциализации, например, продажа или покупка с него ссылок, размещение платных рекламных обзоров. Таким образом, тИЦ, предназначавшийся изначально для сортировки сайтов в Каталоге Яндекса подходит для получения исследования сайта как любой другой качественный показатель. Измерить ТИЦ сайта можно в самом Яндекс Каталоге (нажав на кнопку Яндекса), а также через другие сервисы.

Показатель тематической индексации цитирования влияет на положение сайта при выдаче результатов поиска, но не является самым главным. В системе MatrixNet заложены сотни факторов. Но в выдаче чаще встречаются сайты с высоким тИЦ и с более низкими показателями по другим запросам, чем сайты с низким ТИЦ.

Существуют несколько причин нулевого ТИЦ. Показатели индекса зависят от количества ссылок, их качества, тематики и других параметров. Ссылки с немодерируемых Интернет-ресурсов (каталогов, гостевых книг, блогов) не входят в систему учёта тематического индекса цитирования.

Так, при апдейте ТИЦ важным является возраст ссылки, если ей меньше двух месяцев в реестр при подсчёте тематического индекса она не входит. С ростом ссылочной истории ресурса поднимается и его тИЦ.

Для развития бизнеса в сети лучшим показателем является увеличение посещаемости сайта, хорошая репутация, высокий коэффициент конверсии. Лишь поисковая система Яндекс ранжирует сайты к выдаче из Яндекс Каталога, ориентируясь в основном на ТИЦ. Для других систем он лишь определённый качественный показатель, не более, и никак не показывает степень развития ресурса.

Важным показателем тИЦ считается у мастеров, интернет-бизнес которых зависит от данного параметра, в таком случае они искусственно его поднимают. Их рабочую деятельность составляет продажа ссылок, доменов на специализированных биржах, показатель ТИЦ в таком случае особенно важен.

Высокое тематическое индексирование цитируемости не решит проблем сайтов, цель которых активно работать с людьми, например, интернет-магазинов, здесь главное – это человеческий фактор, доверие, высокая посещаемость и т. д.

Когда рассчитывалась весомость того или иного издания по числу его цитирований появлялась проблема – одинаковый ИЦ сильных и слабых трудов, к тому же не происходило разделение по тематике. В данной ситуации труды по медицине могли существенно повлиять на авторитетность сборника по экономии.

Если вернутся к Интернет- ресурсам, задача ТИЦ была показать авторитетность сайта в своей теме и рассчитывался, скорее, по формуле вИЦ (1).
,
где, в переименованном статусе, PF(v,t) – тИЦ ресурса v, P – число ресурсов, ссылки которых на сайт v той же тематической направленности; - число страниц на исследуемом сайте v; N – общее количество страниц в индексе Яндекса (при этом, — вероятность того, что пользователь читает сайт v); w(i) – частотность цитируемости Интернет-ресурсом i сайта v; N(i) – общее количество ссылок на сайте i.
В данном случае, PF(v,t) является величиной нормализованной.

Выводы из формулы:
1. Результирующий показатель ТИЦ напрямую зависит от числа уникальных страниц ресурса, чем их больше, тем выше индекс. Факт спорный и требует доказательств. Велика вероятность, что толкование параметров несколько отличается (к примеру, всегда равен единице).
2. Сайт-донор имеющий меньшее количество исходящих ссылок передаёт более высокий ТИЦ, что общеизвестно.
3. Перелинковка никак не влияет на тИЦ.

Отметим, что формула аналогична с вИЦ и может наблюдаться некоторое отличие от оригинала. Метод нормализации значений и определения тематических коллекций также не присутствует в формуле тИЦ, оставаясь в стороне. Вопрос классификации сайта по заданным наборам тематик уже отработан поисковыми системами [2]. Чтобы осуществить эту деятельность составляется описание исследуемого Интернет-ресурса, в которое входят: заголовки, структуры URL, названия категорий сайта. Затем рассчитывается оценка схожести между заранее подготовленными тематиками с выбором описаний наиболее близких по теме ресурсов. Тематическая схожесть двух Интернет-документов причисляет их к одной и той же тематике. Значение веса ссылки формируется данным показателем.
Поначалу ТИЦ относился только к области Рунета, сейчас Яндекс работает в Беларуси, в Украине и других регионах. Появились свежие модификации Каталога Яндекса для дополнительных географических сегментов.

Рисунок 1. Географическое расширение Яндекса

Для ранжирования сайтов в новых регионах с помощью Яндекс.Каталогов пришлось ввести региональный тематический индекс цитируемости (рИЦ). Данный показатель помимо тематики учитывает и географическое родство ссылок.

Добавляя к вышеизложенному, нужно сказать, что анкоры ссылок никак не участвуют в определении тематической схожести двух ресурсов. Также нужно учесть, что сайты, имеющие копии могут рассчитывать на суммарный тИЦ, в то время как аффилиаты считаются разными сайтами, и имеют каждый свой собственный тИЦ.