Kompx.com or Compmiscellanea.com

Lynx. Извлечение данных из веб-страниц

Операционные системы : Linux

Помимо просмотра / отображения веб-страниц, Lynx может выводить форматированный текст содержания веб-документа или его HTML источник на стандартный вывод. И это затем может быть обработано с помощью некоторых инструментов, имеющихся в Linux, таких как gawk, Perl, sed, grep, и т.д. Некоторые примеры:

Работа с внешними ссылками

Подсчитать количество внешних ссылок

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http:", перенаправляет результат далее, опять для grep, который выбирает из них строки не начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внешние ссылки веб-страницы), wc подсчитывает число извлеченных внешних ссылок и отображает его:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -o "http:.*" | grep -E -v "http://compmiscellanea.com|http://www.compmiscellanea.com" | wc -l

Найти внешние ссылки и сохранить их в файл

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http:", перенаправляет результат далее, опять для grep, который выбирает из них строки не начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внешние ссылки веб-страницы) и сохраняет их в файл:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -o "http:.*" | grep -E -v "http://compmiscellanea.com|http://www.compmiscellanea.com" > file.txt

Найти внешние ссылки, опустить повторяющиеся записи и сохранить результат в файл

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http:", перенаправляет результат далее, опять для grep, который выбирает из них строки не начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внешние ссылки веб-страницы), sort сортирует их, а uniq удаляет повторяющиеся записи. Результат сохраняется в файл:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -o "http:.*" | grep -E -v "http://compmiscellanea.com|http://www.compmiscellanea.com" | sort | uniq > file.txt

Работа с внутренними ссылками

Подсчитать количество внутренних ссылок

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внутренние ссылки), wc подсчитывает число извлеченных внутренних ссылок и отображает его:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -E -o "http://compmiscellanea.com.*|http://www.compmiscellanea.com.*" | wc -l

Найти внутренние ссылки и сохранить их в файл

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внутренние ссылки) и сохраняет их в файл:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -E -o "http://compmiscellanea.com.*|http://www.compmiscellanea.com.*" > file.txt

Найти внутренние ссылки, опустить повторяющиеся записи и сохранить результат в файл

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внутренние ссылки), sort сортирует их, а uniq удаляет повторяющиеся записи. Результат сохраняется в файл:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -E -o "http://compmiscellanea.com.*|http://www.compmiscellanea.com.*" | sort | uniq > file.txt

Смысл использования "lynx -dump -listonly" вместо просто "lynx -dump" состоит в том, что могут попасться веб-страницы с простыми текстовыми строками, выглядящими как ссылки (содержащие "http://", к примеру) в тексте содержания, как это имеет место на странице http://www.kompx.com/ru/elinks.htm. "Lynx -dump" вывел бы на стандартный вывод форматированный текст, где настоящие ссылки и ссылкоподобные простые текстовые строки выглядели бы одинаково и grep не смог бы их различить. "Lynx -dump -listonly" выдает только список ссылок, так что не случается путаницы с выглядящими как ссылки простыми текстовыми строками.


Aliosque subditos et thema

 

ELinks

 

Возможности : Настройка : Использование : Скриншоты : Где скачать ELinks является попыткой создать современный текстовый веб браузер. Проект начался на основе кода браузера Links. Его целью сначала было попытаться реализовать несколько функций более или менее отсутствующих / слабых в Links. Откуда "E" в "ELinks" - "Experimental" / "Экспериментальный" [Links]. После успеха предпринятых усилий "E" стала пониматься как "Extended" / "Расширенный" или "Enhanced" / "Усовершенствованный". Когда браузер Links достиг определенной степени завершенности, превосходящей в некоторых отношениях тогда самый продвинутый веб браузер Lynx, дальнейшее его развитие оказалось на перепутье: двигаться к отображению графики и далее за пределы чистого текста или продвинуть веб-серфинг с использованием текстового интерфейса пользователя за пределы достигнутые сначала Lynx и затем Links - оставаясь однако в текстовом режиме. Первое направление реализовалось в версии Links способного отображать графическое содержимое веб-страниц - Links2. Второе - это веб браузер ELinks. Lynx был и остается очень проработанным образцом программного обеспечения своего типа. Его авторы задумали и реализовали весьма продуманную и основательную концепцию просмотра веб-страниц в текстовом режиме с особыми абстракциями и условностями, которые помогали преодолеть многие ограничения и недостатки веб-серфинга с использованием текстового интерфейса и создали мир столь отличный от быстро расширяющейся графической части интернета. Но HTML и компьютеры развивались дальше, началось распространение языков сценариев, весь мир представления, нахождения и потребления информации двигался вперед, менялся. Появились новые возможности. Многие из этих возможностей были реализованы в Links, но следующие изменения в визуальном представлении информации в веб документах - от больше HTML к больше CSS - сделали открытыми новые дороги; даже оставаясь в текстовом режиме. И это стараются реализовать в ELinks: поддержка отображения цвета в поддерживающих эту возможность эмуляторах терминала, немного позиционирования с помощью CSS и даже какая-то поддержка JavaScript / ECMAScript. Техническая сторона сетевых технологий (как поддержка SSL) и поддержка различных кодировок текста были уже весьма основательны в браузере Links, но в ELinks некоторые возможности были улучшены, а другие более проработаны. ELinks это шаг вперед в концепции консольного веб браузера, что делает ELinks самым продвинутым примером её реализации. Хотя Lynx все еще вполне удерживает свои позиции. Его концепция просмотра веб-страниц в текстовом режиме даже представляя собой упрощение, особенный подход к представлению информации и обращению с ней, а не стремление походить на среду графических браузеров - работает весьма неплохо. Веб документы становятся все более и более сложно реализованными и (имея все неизбежные ограничения просмотра веб-страниц в текстовом режиме) следовать по особому пути в обращении с ними, это способ вполне могущий конкурировать с попыткой быть как основные, графические полнофункциональные веб браузеры настольных компьютеров. Это аналогично дилемме браузеров для мобильных устройств с небольшими дисплеями: пробовать имитировать компьютеры с большими дисплеями или трансформировать отображаемые веб документы, делая их соответствующими характеристикам среды. Текстовые браузеры большей частью используются на компьютерах с более или менее крупными дисплеями, так что тут меньше ограничений по размерам и больше соблазнов: Lynx - оставаться сдержанным, ELinks - выйти за пределы. Возможности Текстовый веб браузер. Версии для Linux, других *nix систем, Windows, DOS, OS/2, BeOS и еще некоторых других. HTML ( в том числе таблицы и фреймы ). Весьма ограниченно CSS и JavaScript ( Подробнее ). Поддержка цветовой палитры в 16, 88 или 256 цветов в поддерживающих эту возможность эмуляторах терминала / консолях. Поддержка вкладок, фоновых загрузок с оповещением об окончании загрузки. Поддержка мыши. Редактирование текстовых полей форм веб-страниц во внешнем текстовом редакторе. Горячие клавиши для URL. Поддержка сценариев на Perl, Lua, Guile, Ruby.

<hr /> по центру CSS

 

Выравнивание <hr /> по центру с помощью CSS, если ее ширина меньше 100%. Горизонтальное выравнивание по центру. Пример: HTML / XHTML. Код: <hr /> CSS. Код: hr {width: 50%; margin: 0 25% 0 25%;} /* Дополнительные CSS, просто для приведения примера к некоему внешнему виду: */ hr {height: 1px; float: left; border: 0px; color: #f00; background: #f00;} Примечание: большей частью работает как с float: left, так и с float: none. Однако с float: left самый верный вариант. [ 1 ] А так же в Netscape 4.04+, Mozilla 0.6+. [ 2 ] А так же в Netscape 4.04+, Mozilla 0.6+.