Где можно узнать про книжки, кроме библиотеки?

Правильно – на базаре. И конкретно – на Amazon.com.

Ниже описана процедура автоматического "съёма" информации о книжках с этого сайта. Цель – сформировать перечень книг в xls-формате, максимально сэкономив золотое аспирантское времечко.

Шаг 1. Скачиваем набор утилит UnxUtils "GNU utilities for Win32" и англоязычный help по всем утилитам (размер 102801 байт). (Если вы ещё не сделали это в материале на сайте).

Шаг 2. Извлекаем все файлы из архива "unix_utils.zip" и переписываем их в системную папку, например, "c:\windows\". Можно, на всякий пожарный, перезагрузиться.

Шаг 3. На диске "c:\" создаём папку "c:\info\".

Шаг 4. Скачиваем архивный файл "buka.zip" (128 кб) с набором скриптов в папку "c:\info\".

Шаг 5. Извлекаем все папки и файлы из этого архива в папку "c:\info\buka\".

Шаг 6. Если стоит файерволл, скажите ему, чтобы он "не трогал" "wget.exe" и разрешал ему "гулять в Интернете".

Шаг 7. Открываем ссылку.


Рис. 1. Поиск книг на Amazon.com – режим настроек поиска

Шаг 8. Начинаем искать книжки, содержащие, например, ключевые слова "radar signal processing" ("обработка радиолокационных сигналов"). Для этого "вбиваем" их в соответствующую строку (рис. 2).


Рис. 2. Ввод ключевых слов в текстовое окно "Keywords"

Шаг 9. Выбираем тематику книжек (рис. 3), поскольку одно и то же слово может встречаться и в научной литературе и в любовных романах.


Рис. 3. Выбор тематики издания

Шаг 10. Поскольку романтика и прочая беллетристическая ерунда нас, как бы, не интересует, выбираем (рис. 4) "Науку" ("Science").


Рис. 4. Выбор тематики "Наука"

Шаг 11. Определяемся с языком (рис. 5), на котором написана книжка. И, с удивлением, обнаруживаем, что русский язык отсутствует напрочь. Сволочи! Больше повезло, естественно, англичанам, затем французам, немцам и испанцам.


Рис. 5. Выбор языка

Шаг 12. Как я понимаю, испано-читающих аспирантов в ТУСУРе не густо, поэтому выбираем старый добрый инглиш (рис. 6).


Рис. 6. Выбор языка наиболее вероятного противника

Шаг 13. В принципе, можно дальше не морочить себе голову, а просто нажать (рис. 7) кнопку "Поиск" ("Search").


Рис. 7. Запуск поиска

Шаг 14. Знакомимся с результатами поиска книг (рис. 8) на сайте Amazon.com по ключевым словам "radar signal processing". Поисковая машина "нарыла" 127 наименований. При этом все результаты выводятся по 12 штук на странице. Конечно, если найдено 5 несчастных книжек, то можно на этом и закончить. А если 100? Или 1500? Экономим свое драгоценное аспирантское время и автоматизируем процесс.


Рис. 8. Результат поиска

Шаг 15. В браузере выбираем пункт меню "Файл – Сохранить как..." (рис. 9).


Рис. 9. Пункт меню "Файл – Сохранить как..."

Шаг 16. Выбираем место (рис. 10) для сохранения первой страницы с результатами поиска – папку "c:\info\buks\page\".


Рис. 10. Папка для сохранения первой страницы с результатами поиска

Шаг 17. Выбираем формат (рис. 11) сохранения страницы – как "Веб-страница, только HTML".


Рис. 11. Выбор формата сохранения страницы

Шаг 18. Выбираем в папке "c:\info\buks\page\" файл под именем "1.htm" (рис. 12).


Рис. 12. Выбор файла для сохранения

Шаг 19. Сохраняем файл (рис. 13).


Рис. 13. Сохранение файла

Шаг 20. Перезаписываем файл (рис. 14).


Рис. 14. Замена существующего файла "1.htm" на новый

Шаг 21. Открываем в "Проводнике" папку "c:\info\buka\" (рис. 15). Находим файл "_bamazon.bat" и щёлкаем по нему два раза. Всё – процесс пошёл… Кому интересно, или кто не курит, любуется протекающими процессами (рис. 16 – рис. 28).


Рис. 15. Запуск bat-файла "_bamazon.bat"


Рис. 16. Начало "процесса"


Рис. 17. Формирование списка url-адресов страниц для закачки


Рис. 18. Начало загрузки html-страниц с результатами поиска


Рис. 19. Процесс загрузки html-страниц


Рис. 20. Окончание процесса загрузки html-страниц (загружено 10 файлов объёмом 816 кб)


Рис. 21. Переименование закачанных html-страниц


Рис. 22. Начало процесса формирования файлов баз данных


Рис. 23. Формирование csv-файла


Рис. 24. Сортировка записей по годам


Рис. 25. Переименование csv-файла


Рис. 26. Преобразование csv-файла в xls-файл


Рис. 27. Перемещении сформированных файлов базы данных в папку "c:\info\buka\dabs"


Рис. 28. Архивация html-файлов и финальный звуковой аккорд

Шаг 22. Открываем в "Проводнике" папку "c:\info\buka\dabs" и убеждаемся в появлении двух файлов базы данных с именами "buka-radar signal processing" и архивированный файл "respages.zip" с html-страницами.


Рис. 29. Папка "c:\info\buka\dabs" с результатами формирования списка книг

Шаг 23. "Тюкаем" по файлу "buka-radar signal processing.xls". В открывшемся в "MS Excel" файле имеются 4 столбца: "Название", "Автор(ы)", "Год" и "Ссылка".


Рис. 30. Столбец с названиями книг


Рис. 31. Столбец с именами авторов книг


Рис. 32. Столбец с годом издания книг


Рис. 33. Ссылка на страницу на Amazon.com с дополнительными данными

Шаг 24. Предположим, что нас заинтересовала (рис. 30) книжка с незатейливым названием "Complete signal processing for through wall tracking of moving targets" ("Полная обработка сигналов для сопровождения объектов, движущихся за стенами"). Копируем соответствующую ссылку (рис. 33) в четвёртом столбце и вставляем её в браузер (рис. 34).


Рис. 34. Ссылка на страницу на Amazon.com в адресной строке "Slimbrowser"
Кстати, можно выделить весь столбец со ссылками, скопировать, записать в файл "adr.olt" и отправить на загрузку в "OrbitDownloader", как это описано в материале "Вскрываем закрома Минобороны США: руководство для аспирантов".

Шаг 25. Знакомимся со стоимостью заказа книги "Complete signal processing for through wall tracking of moving targets" (рис. 35).


Рис. 35. Стоимость заказа книжки на Amazon.com

Шаг 26. Читаем дополнительную информацию (рис. 36). Иногда бывают весьма интересные, развёрнутые отзывы читателей о книге.


Рис. 36. Дополнительная информация

Шаг 27. Читаем подробную информацию о книге – число страниц, издательство, ISBN и, что очень важно – её вес в унциях!


Рис. 37. Выходные данные

"Ну, и нафига мне эта информация?", спросит простодушный аспирант. В общем-то, законный вопрос.

Вот сценарии возможных боевых действий:

Выбор за вами, мои юные друзья!

В качестве примера ниже приведена ссылка на архив с 30 тематическими xls-файлами, содержащими перечни книг на Amazon.com и сформированными в конце февраля 2011 года по описанной выше процедуре:


Качаем архивный файл (930 кб).


Засим, почтеннейшая публика, разрешите откланяться!

Спасибо за внимание!


࠭妪�󱩪�title=