Kompx.com or Compmiscellanea.com

Lynx. Извлечение данных из веб-страниц

Операционные системы : Linux

Помимо просмотра / отображения веб-страниц, Lynx может выводить форматированный текст содержания веб-документа или его HTML источник на стандартный вывод. И это затем может быть обработано с помощью некоторых инструментов, имеющихся в Linux, таких как gawk, Perl, sed, grep, и т.д. Некоторые примеры:

Работа с внешними ссылками

Подсчитать количество внешних ссылок

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http:", перенаправляет результат далее, опять для grep, который выбирает из них строки не начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внешние ссылки веб-страницы), wc подсчитывает число извлеченных внешних ссылок и отображает его:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -o "http:.*" | grep -E -v "http://compmiscellanea.com|http://www.compmiscellanea.com" | wc -l

Найти внешние ссылки и сохранить их в файл

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http:", перенаправляет результат далее, опять для grep, который выбирает из них строки не начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внешние ссылки веб-страницы) и сохраняет их в файл:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -o "http:.*" | grep -E -v "http://compmiscellanea.com|http://www.compmiscellanea.com" > file.txt

Найти внешние ссылки, опустить повторяющиеся записи и сохранить результат в файл

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http:", перенаправляет результат далее, опять для grep, который выбирает из них строки не начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внешние ссылки веб-страницы), sort сортирует их, а uniq удаляет повторяющиеся записи. Результат сохраняется в файл:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -o "http:.*" | grep -E -v "http://compmiscellanea.com|http://www.compmiscellanea.com" | sort | uniq > file.txt

Работа с внутренними ссылками

Подсчитать количество внутренних ссылок

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внутренние ссылки), wc подсчитывает число извлеченных внутренних ссылок и отображает его:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -E -o "http://compmiscellanea.com.*|http://www.compmiscellanea.com.*" | wc -l

Найти внутренние ссылки и сохранить их в файл

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внутренние ссылки) и сохраняет их в файл:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -E -o "http://compmiscellanea.com.*|http://www.compmiscellanea.com.*" > file.txt

Найти внутренние ссылки, опустить повторяющиеся записи и сохранить результат в файл

Lynx выводит список ссылок из содержимого веб-документа на стандартный вывод. Grep ищет только строки, начинающиеся с "http://compmiscellanea.com" and "http://www.compmiscellanea.com" (внутренние ссылки), sort сортирует их, а uniq удаляет повторяющиеся записи. Результат сохраняется в файл:

lynx -dump -listonly "http://compmiscellanea.com/en/elinks.htm" | grep -E -o "http://compmiscellanea.com.*|http://www.compmiscellanea.com.*" | sort | uniq > file.txt

Смысл использования "lynx -dump -listonly" вместо просто "lynx -dump" состоит в том, что могут попасться веб-страницы с простыми текстовыми строками, выглядящими как ссылки (содержащие "http://", к примеру) в тексте содержания, как это имеет место на странице http://www.kompx.com/ru/elinks.htm. "Lynx -dump" вывел бы на стандартный вывод форматированный текст, где настоящие ссылки и ссылкоподобные простые текстовые строки выглядели бы одинаково и grep не смог бы их различить. "Lynx -dump -listonly" выдает только список ссылок, так что не случается путаницы с выглядящими как ссылки простыми текстовыми строками.


Aliosque subditos et thema

 

Настройка сети в DOS с помощью Microsoft Network Client 3.0

 

Для установки Microsoft Network Client 3.0 и настройки сети в DOS, необходимо: 1. Microsoft Network Client 3.0 [ Скачать ] 2. NDIS 2.0 драйвер для сетевой карты Ethernet. Например: Realtek RTL8029AS [ Скачать ]. Другие можно попробовать найти, к примеру, на сайтах производителей сетевых адаптеров Ethernet 3. В случае, если будет использоваться не MS-DOS 6.0+, QEMM97 [ Скачать ] Установка Microsoft Network Client 3.0 и настройка сети в DOS по шагам: 1. Создать папку, например C:\DRIVERS\, куда поместить NDIS 2.0 драйвер для сетевого адаптера Ethernet. 2. Подготовить установочные дискеты Microsoft Network Client 3.0: DSK3-1.EXE -d A: DSK3-2.EXE -d A: 3. С первой дискеты запустить setup.exe и начать установку Microsoft Network Client 3.0 Начинается установка. Что бы продолжить: Enter Выбрать каталог, куда будет установлен Microsoft Network Client 3.0. Можно ввести свой вариант, а можно оставить как есть - в рассматриваемом примере оставлено как есть. Enter Microsoft Network Client 3.0 собирает сведения о системе. Выбрать драйвер для сетевой карты Ethernet. Если в списке не оказывается нужного драйвера, тогда выбрать "*Network adapter not shown on list below ..." Enter Этот диалог появляется, если в предложенном в предыдущем шаге установки списке драйверов для сетевой карты Ethernet не обнаруживается необходимого драйвера и выбирается "*Network adapter not shown on list below ...". Указать путь к папке, в которой находится нужный драйвер для сетевой карты Ethernet. В рассматриваемом примере, это C:\DRIVERS\, вводим. Enter Выбрать драйвер из указанной в предыдущем шаге папки C:\DRIVERS\. В рассматриваемом примере, это RTL8029AS PCI Ethernet Adapter. Enter Выбрать позволить или нет Microsoft Network Client 3.0 использовать больше памяти в процессе работы ради наилучших результатов. Можно выбрать любой вариант. Например, позволить - Enter Ввести имя пользователя длиной до 20 знаков для идентификации в рабочей группе в рамках сети. Можно использовать латиницу, цифры и указанные знаки. В рассматриваемом примере, это "net".

ELinks. Настройка

 

Перейти к страницам: ELinks - Текстовый, или консольный веб браузер. Описание: возможности, скриншоты, где скачать. ELinks. Использование - Как пользоваться браузером ELinks. Что можно делать с помощью ELinks и что нельзя, что может быть настроено, зависит от нескольких моментов. Самое распространенное, это возможности эмулятора терминала / консоли, в которых запускается ELinks и поддержка чего была выбрана в процессе компиляции исходного кода браузера. В некоторых операционных системах (Windows, например) проще и более надежно не подключать некоторые возможности. Далее обсуждается настройка ELinks 0.12pre2 из Package Database дистрибутива Zenwalk Linux (изначально основывался на Slackware, до сих пор сохраняя совместимость с его бинарными пакетами). Данный ELinks вполне типичный среди других версий этого браузера для Linux на настольных PC компьютерах. Пользовательский интерфейс версии ELinks для Windows и ELinks для Linux / некоторых других *nix систем сравнимых версий одинаков. Если ELinks был скомпилирован без какой-то функции или эмулятор терминала / консоль не поддерживает что-то, тогда будет просто невозможно выбрать эту возможность в процессе настройки; или возможно, но она не будет работать. Например, если ELinks скомпилирован без поддержки 256 цветов или консоль не может отображать их, то в меню будет возможно выбрать только 16 или "No colors (mono)". А в остальном ELinks будет работать не хуже. Все настройки ELinks могут быть сделаны через меню браузера - нет необходимости редактировать конфигурационные файлы. Даже если для некоторых тонких настроек все-таки может потребоваться редактирование файла ELinks.conf или даже файлов исходного кода - но это не слишком актуальный вопрос для обычного использования. Меню ELinks скрыто, когда браузер отображает веб-страницу: Чтобы получить доступ к меню, нажать Esc на клавиатуре: Настройки находятся в группе "Setup": 1 ) "Language" - выбрать язык пользовательского интерфейса ELinks. Возможно выбрать системный язык или какой-то другой. Операционная система и эмулятор терминала / консоль должны быть подготовлены для этих изменений - установлены и настроены соответствующие файлы локализации / интернационализации. Выбрать язык (English в данном примере): Что бы сохранить этот выбор, вновь нажать Esc, затем Setup, потом Save options, затем подтвердить, кликая на OK.