Как Вы превращаете динамический сайт в статический сайт, который может быть demo'd с CD?

Вам нужно назначить обратно

df = df.replace('white', np.nan)

или передать param inplace=True:

In [50]:
d = {'color' : pd.Series(['white', 'blue', 'orange']),
   'second_color': pd.Series(['white', 'black', 'blue']),
   'value' : pd.Series([1., 2., 3.])}
df = pd.DataFrame(d)
df.replace('white', np.nan, inplace=True)
df

Out[50]:
    color second_color  value
0     NaN          NaN    1.0
1    blue        black    2.0
2  orange         blue    3.0

Большинство pandas ops возвращают копию, и большинство из них имеют параметр inplace, который обычно по умолчанию False

8
задан Vadim Kotov 6 September 2017 в 20:29
поделиться

4 ответа

wget или завихрение могут и рекурсивно перейти по ссылкам и зеркально отразить весь сайт, так, чтобы могла бы быть хорошая ставка. Вы не сможете использовать действительно интерактивные части сайта, как поисковые системы или что-либо, что изменяет данные, thoguh.

Действительно ли возможно вообще создать фиктивные серверные службы, которые могут работать от ноутбуков людей продаж, что приложение может взаимодействовать через интерфейс с?

3
ответ дан 5 December 2019 в 07:37
поделиться

Вы не собираетесь быть способными обработать вещи как запросы Ajax, не записывая веб-сервер к CD, который я понимаю, что Вы уже сказали, невозможно.

wget загрузит сайт для Вас (используйте-r параметр для "рекурсивного"), но любой динамический контент как отчеты и так далее, конечно, не будет работать правильно, Вы просто получите единственный снимок.

1
ответ дан 5 December 2019 в 07:37
поделиться

Если Вы действительно заканчиваете тем, что имели необходимость выполнить его прочь веб-сервера, Вы могли бы хотеть смотреть на:

ServerToGo

Это позволяет Вам выполнить стек WAMPP прочь CD, вместе с поддержкой mysql/php/apache. Дб копируется в текущих пользователей, работают временно каталог на запуске и может быть выполнен полностью без пользователя, устанавливающего что-либо!

1
ответ дан 5 December 2019 в 07:37
поделиться

При помощи WebCrawler, например, одного из них:

  • DataparkSearch является поисковым роботом и поисковой системой, выпущенной в соответствии с Генеральной общедоступной лицензией GNU.
  • GNU Wget является командной строкой, управлял поисковым роботом, записанным в C, и выпустил под GPL. Это обычно используется для зеркального отражения веб-сайтов и FTP-сайтов.
  • HTTrack использует поисковый робот для создания зеркала веб-сайта об офлайновом просмотре. Это записано в C и выпущено под GPL.
  • Поисковый робот ICDL является межплатформенным поисковым роботом, записанным в C++ и предназначенным для проверки веб-сайтов на основе Шаблонов Синтаксического анализа Веб-сайта с помощью свободных ресурсов ЦП компьютера только.
  • JSpider является высоконастраиваемым и настраиваемым механизмом поискового робота, выпущенным под GPL.
  • Larbin Sebastien Ailleret
  • Webtools4larbin Andreas Beder
  • Methabot является оптимизированным скоростью поисковым роботом и утилитой командной строки, записанной в C и выпущенной в соответствии с Лицензией BSD с 2 пунктами. Это показывает широкую систему конфигурации, систему модуля и имеет поддержку целенаправленной проверки через локальную файловую систему, HTTP или FTP.
  • Jaeksoft WebSearch является поисковым роботом и сборкой индексатора по Apache Lucene. Это выпущено в соответствии с лицензией GPL v3.
  • Nutch является поисковым роботом, записанным в Java и выпущенным в соответствии с лицензией Apache. Это может использоваться в сочетании с текстом Lucene, индексирующим пакет.
  • Pavuk является веб-инструментом зеркала командной строки с дополнительным поисковым роботом X11 GUI и выпущенный под GPL. Это имеет набор расширенных функций по сравнению с wget и httrack, например, основанной на регулярном выражении фильтрацией и правилами создания файла.
  • WebVac является поисковым роботом, используемым Проектом WebBase Стэнфорда.
  • WebSPHINX (Miller и Bharat, 1998) состоит из Библиотеки классов Java, которая реализует многопоточное извлечение веб-страницы и парсинг HTML и графический интерфейс пользователя, чтобы установить стартовые URL, извлечь загруженные данные и реализовать основную основанную на тексте поисковую систему.
  • ПРОВОД - веб-Среда Информационного поиска [15] является поисковым роботом, записанным в C++ и выпущенным под GPL, включая несколько политик для планирования загрузок страницы и модуля для генерации отчетов и статистики на загруженных страницах, таким образом, это использовалось для веб-характеристики.
  • LWP:: RobotUA (Langheinrich, 2004) является классом Perl для реализации параллельных поисковых роботов хорошего поведения, распределенных под Perl 5 лицензия.
  • Класс поискового робота Открытого исходного кода Web Crawler для.NET (записанный в C#).
  • Sherlock Holmes Sherlock Holmes собирает и индексирует текстовые данные (текстовые файлы, веб-страницы...), и локально и по сети. Holmes спонсируется и коммерчески используется чешским Центром веб-портала. Это также используется Onet.pl.
  • YaCy, свободная распределенная поисковая система, основывался на принципах одноранговых сетей (лицензируемый под GPL).
  • Ruya Ruya является Открытым исходным кодом, высокопроизводительным основанным на уровне поисковым роботом в ширину. Это используется для проверки английских и японских веб-сайтов способом хорошего поведения. Это выпущено под GPL и записано полностью на языке Python. Реализация SingleDomainDelayCrawler повинуется robots.txt с задержкой проверки.
  • Универсальный информационный Поисковый робот, Быстро разрабатывающий поисковый робот. Проверки Сохраняют и анализируют данные.
  • Ядро агента платформа Java для расписания, потока и управления хранением при проверке.
  • Spider News, информация относительно создания паука в жемчуге.
  • Arachnode.NET, неразборчивый поисковый робот с открытым исходным кодом для загрузки, индексации и хранения интернет-контента включая адреса электронной почты, файлы, гиперссылки, изображения и Веб-страницы. Arachnode.net записан в C# с помощью SQL Server 2005 и выпущен под GPL.
  • обедайте многопоточный Java клиент/поисковый робот HTTP, который может быть запрограммирован в JavaScript, выпущенном под LGPL.
  • Crawljax является поисковым роботом Ajax на основе метода, который динамично создает 'потоковый граф состояния', моделируя различные пути навигации и состояния в рамках приложения Ajax. Crawljax записан в Java и выпущен в соответствии с Лицензией BSD.
13
ответ дан 5 December 2019 в 07:37
поделиться
Другие вопросы по тегам:

Похожие вопросы: