Lecture on Как работают Яндекс Новости Татьяна Исаева

Вашему вниманию предлагается доклад и презентация по теме Как работают Яндекс Новости Татьяна Исаева. Данны материал, представленный на 23 страницах, поможет подготовится к уроку Economics and finance. Он будет полезен как ученикам и студентам, так и преподавателям школ и вузов. Вы можете ознакомиться и скачать этот и любой другой доклад у нас на сайте. Все материалы абсолютно бесплатны и доступны. Ссылку на скачивание Вы можете найти вконце страницы. Если материал Вам понравились – поделитесь им с друзьями с помощью социальных кнопок и добавьте сайт в закладки в своем браузере.
Страница #1
Как работают Яндекс.Новости Татьяна Исаева
Страница #2
Информация вложена в изображении слайда
Страница #3
Модель сервиса
Модель сервиса
Страница #4
Информация вложена в изображении слайда
Страница #5
Релевантный новостной ответ
  Алгоритм, формирующий ответ на новостные запросы пользователей, ориентируется на следующие свойства сообщений:
принадлежность первоисточнику
оперативность 
цитируемость
информативность

Источники, у которых доминируют такие сообщения, предлагаются пользователям в первую очередь.
Релевантный новостной ответ Алгоритм, формирующий ответ на новостные запросы пользователей, ориентируется на следующие свойства сообщений: принадлежность первоисточнику оперативность цитируемость информативность Источники, у которых доминируют такие сообщения, предлагаются пользователям в первую очередь.
Страница #6
Требования к сообщению
Формат (не подходят для трансляции реклама; не обработанные силами редакции пресс-релизы; новости сайта; аудио- и видеоматериалы, не сопровождаемые связным печатным текстом; таблицы и списки, не сопровождаемые связным печатным текстом)
Технология (если текст сообщения на сайте был изменён, необходимо поместить его в экспортный файл в изменённом виде или прислать запрос на удаление неактуального сообщения)
Требования законодательства (аккуратное цитирование; нормы литературного русского языка)
Требования к сообщению Формат (не подходят для трансляции реклама; не обработанные силами редакции пресс-релизы; новости сайта; аудио- и видеоматериалы, не сопровождаемые связным печатным текстом; таблицы и списки, не сопровождаемые связным печатным текстом) Технология (если текст сообщения на сайте был изменён, необходимо поместить его в экспортный файл в изменённом виде или прислать запрос на удаление неактуального сообщения) Требования законодательства (аккуратное цитирование; нормы литературного русского языка)
Страница #7
Что такое *дубликат 
  Дубликаты – документы, в большой степени совпадающие с оригинальным сообщением. Они автоматически определяются до формирования сюжета, не представлены в сюжетах и не участвуют в поиске по сервису.
  Из каждой группы дубликатов остается по одному сообщению («мастеру»), которое может быть представлено на страницах сюжета и в результатах поиска. «Мастер» определяется:
по времени публикации сообщения на сайте;
по сравнительному анализу текстов;
по цитированию источника (учитываются гиперссылки, текстовые упоминания).
Что такое *дубликат Дубликаты – документы, в большой степени совпадающие с оригинальным сообщением. Они автоматически определяются до формирования сюжета, не представлены в сюжетах и не участвуют в поиске по сервису. Из каждой группы дубликатов остается по одному сообщению («мастеру»), которое может быть представлено на страницах сюжета и в результатах поиска. «Мастер» определяется: по времени публикации сообщения на сайте; по сравнительному анализу текстов; по цитированию источника (учитываются гиперссылки, текстовые упоминания).
Страница #8
Статистика «копипейста»
Доля дубликатов сообщений в российских интернет-СМИ - 20%
Доля изданий, которые ни разу не перепечатывали чужие материалы «вчистую» - тоже 20%
Доля сообщений, содержащих ссылки на первоисточники (названия других СМИ или гиперссылки) – всего 8%
По данным аналитического отчета Яндекса «Медиасфера Рунета», зима 2009 
http://download.yandex.ru/company/yandex_on_russian_internet_media_winter_2009.pdf
Статистика «копипейста» Доля дубликатов сообщений в российских интернет-СМИ - 20% Доля изданий, которые ни разу не перепечатывали чужие материалы «вчистую» - тоже 20% Доля сообщений, содержащих ссылки на первоисточники (названия других СМИ или гиперссылки) – всего 8% По данным аналитического отчета Яндекса «Медиасфера Рунета», зима 2009 http://download.yandex.ru/company/yandex_on_russian_internet_media_winter_2009.pdf
Страница #9
Сюжет в Яндекс.Новостях
Сюжет в Яндекс.Новостях
Страница #10
Схема создания сюжета
Схема создания сюжета
Страница #11
Выбор заголовка сюжета
Соответствие региону пользователя
Лексическая и фактологическая «ядерность»
Актуальность фактов
Информативность и читаемость

Цель: 
первый по времени заголовок, наиболее полно отражающий актуальную фактическую сторону сюжета, не содержащий нехарактерных для сюжета слов и фактов.
Выбор заголовка сюжета Соответствие региону пользователя Лексическая и фактологическая «ядерность» Актуальность фактов Информативность и читаемость Цель: первый по времени заголовок, наиболее полно отражающий актуальную фактическую сторону сюжета, не содержащий нехарактерных для сюжета слов и фактов.
Страница #12
Создание аннотации сюжета (дайджеста)
  Из всех сообщений сюжета автоматически выделяются наиболее значимые объекты, имена людей, названия организаций, географические объекты, даты и числа. Они, наряду с ключевыми словами сюжета и новостными запросами, определяют выбор текстов для аннотации.
  Цель: 
показать предложения из сообщений, содержащие основные факты события
Создание аннотации сюжета (дайджеста) Из всех сообщений сюжета автоматически выделяются наиболее значимые объекты, имена людей, названия организаций, географические объекты, даты и числа. Они, наряду с ключевыми словами сюжета и новостными запросами, определяют выбор текстов для аннотации. Цель: показать предложения из сообщений, содержащие основные факты события
Страница #13
Аннотация сюжета. Информативность
Аннотация сюжета. Информативность
Страница #14
Заголовок сюжета. 
«Ядерность» лексики
Заголовок сюжета. «Ядерность» лексики
Страница #15
Информация вложена в изображении слайда
Страница #16
Выбор заголовков для первой страницы. Цитируемость в сюжете
Выбор заголовков для первой страницы. Цитируемость в сюжете
Страница #17
Определение жанра сообщения
Лента – короткие новостные сообщения
Новость – более развёрнутое сообщение
Интервью – диалог, оформленный по правилам пунктуации русского языка
Статья – большой по объёму текст (от 500 слов), представляющий собой анализ события, ситуации etc, в котором представлены разные точки зрения
Определение жанра сообщения Лента – короткие новостные сообщения Новость – более развёрнутое сообщение Интервью – диалог, оформленный по правилам пунктуации русского языка Статья – большой по объёму текст (от 500 слов), представляющий собой анализ события, ситуации etc, в котором представлены разные точки зрения
Страница #18
Выбор главных новостных сюжетов
  Цель: 
отобрать самые освещаемые в СМИ, общезначимые,  актуальные и вызывающие интерес пользователей события.
Выбор главных новостных сюжетов Цель: отобрать самые освещаемые в СМИ, общезначимые, актуальные и вызывающие интерес пользователей события.
Страница #19
Определение веса сюжета
Определение веса сюжета
Страница #20
Вес источника
  Цитируемость учитывает, насколько часто ссылаются на источник другие новостные ресурсы 
  Оперативность учитывает, насколько часто источник быстро реагирует на события
  Вес источников автоматически пересчитывается каждую неделю
Вес источника Цитируемость учитывает, насколько часто ссылаются на источник другие новостные ресурсы Оперативность учитывает, насколько часто источник быстро реагирует на события Вес источников автоматически пересчитывается каждую неделю
Страница #21
Топ-10 самых цитируемых агентств 
(в алфавитном порядке)
 «Ведомости»
 «Интерфакс»
 «ИТАР-ТАСС»
 «Коммерсант»
 «Комсомольская правда»
 Lenta.ru
 «Первый канал»
 РБК
 РИА «Новости»
 «Российская газета»
Топ-10 самых цитируемых агентств (в алфавитном порядке) «Ведомости» «Интерфакс» «ИТАР-ТАСС» «Коммерсант» «Комсомольская правда» Lenta.ru «Первый канал» РБК РИА «Новости» «Российская газета»
Страница #22
Информация вложена в изображении слайда
Страница #23
Спасибо за внимание!
Вопросы?


info@news.yandex.ru 


Татьяна Исаева, руководитель службы по работе с партнерами Яндекс.Новостей
Спасибо за внимание! Вопросы? info@news.yandex.ru Татьяна Исаева, руководитель службы по работе с партнерами Яндекс.Новостей