12 лет назад 3 декабря 2011 в 1:22 824

Общедоступный индекс веба в 5 миллиардов страниц

Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок. Общий объём базы — 40-50 Тб в архивах формата ARC по 100 Мб. Разработчики могут скачать файлы к себе напрямую (за $130 по расценкам Amazon), либо же использовать их внутри облака Amazon бесплатно.

Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.

Данные доступны практически без ограничений. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.

Добавим, что руководителем Common Crawl Foundation является широко известный в узких кругах Гилад Элбаз (Gilad Elbaz), главный разработчик системы Google AdSense и исполнительный директор стартапа Factual.

Никто не прокомментировал материал. Есть мысли?