Создайте большой синтаксический анализатор - извлекают соответствующий текст из HTML/блогов

Question

Создайте большой синтаксический анализатор - извлекают соответствующий текст из HTML/блогов

Короткий ответ: не продвигайте исправленный, соглашается на общественность repo.

ответ Long: Несколько команд Мерзавца, как git commit --amend и git rebase, на самом деле переписывают график истории. Это прекрасно, пока Вы не опубликовали свои изменения, но как только Вы делаете, Вы действительно не должны слоняться без дела с историей, потому что, если кто-то уже получил Ваши изменения, тогда когда они пытаются вытянуть снова, она могла бы перестать работать. Вместо того, чтобы исправить фиксацию, необходимо просто сделать новую фиксацию с изменениями.

Однако, если Вы действительно, действительно хотите продвинуть исправленную фиксацию, можно сделать так как это:

$ git push origin +master:master

продвижение + знак вынудит нажатие произойти, даже если это не приведет к фиксации "ускоренной перемотки вперед". (Фиксация ускоренной перемотки вперед происходит, когда изменения, которые Вы продвигаете, прямой потомок из изменений уже в общественности repo.)

22

html parsing text-parsing html-content-extraction

задан Charles Stewart 2 January 2010 в 20:14

2 ответа

There are projects out there that specifically look at filtering out the 'noise' of a given page. Typically the way this is done is by giving the algorithm a few examples of a given type of page, and it can look at what parts don't change between them. That being said, you'd have to give the algorithm a few example pages/posts of every blog you wanted to parse. This usually works well when you have a small defined set of sites you'll be crawling (news sites, for instance). The algorithm is basically detecting the template they use in HTML and picking out the interesting part. There's no magic here, it's tough and imperfect.

A great example of this alogrithm can be found in the EveryBlock.com source code which was just open-sourced. Go to everyblock.com/code and download the "ebdata" package and look at the "templatemaker" module.

And I don't mean to state the obvious, but have you considered just using RSS from the blogs in question? Usually the fields have the entire blog post, title, and other meta info along with them. Using RSS is going to be far simpler than the previous solution I mentioned.

3

ответ дан 29 November 2019 в 05:26

Другие вопросы по тегам:

html parsing text-parsing html-content-extraction

Создайте большой синтаксический анализатор - извлекают соответствующий текст из HTML/блогов

2 ответа

Похожие вопросы: