Как рассчитать точность и отзыв по тегам для POS-тегировщика?

Я использую несколько основанных на правилах и статистических тегов POS, чтобы пометить корпус (примерно 5000 предложений ) частями речи (POS). Ниже приведен фрагмент моего тестового корпуса, в котором каждое слово разделено соответствующим тегом POS на '/'.

No/RB ,/, it/PRP was/VBD n't/RB Black/NNP Monday/NNP ./.
But/CC while/IN the/DT New/NNP York/NNP Stock/NNP Exchange/NNP did/VBD n't/RB fall/VB apart/RB Friday/NNP as/IN the/DT Dow/NNP Jones/NNP Industrial/NNP Average/NNP plunged/VBD 190.58/CD points/NNS --/: most/JJS of/IN it/PRP in/IN the/DT final/JJ hour/NN --/: it/PRP barely/RB managed/VBD *-2/-NONE- to/TO stay/VB this/DT side/NN of/IN chaos/NN ./.
Some/DT ``/`` circuit/NN breakers/NNS ''/'' installed/VBN */-NONE- after/IN the/DT October/NNP 1987/CD crash/NN failed/VBD their/PRP$ first/JJ test/NN ,/, traders/NNS say/VBP 0/-NONE- *T*-1/-NONE- ,/, *-2/-NONE- unable/JJ *-3/-NONE- to/TO cool/VB the/DT selling/NN panic/NN in/IN both/DT stocks/NNS and/CC futures/NNS ./.

После тегирования корпуса это выглядит следующим образом:

No/DT ,/, it/PRP was/VBD n't/RB Black/NNP Monday/NNP ./. 
But/CC while/IN the/DT New/NNP York/NNP Stock/NNP Exchange/NNP did/VBD n't/RB fall/VB apart/RB Friday/VB as/IN the/DT Dow/NNP Jones/NNP Industrial/NNP Average/JJ plunged/VBN 190.58/CD points/NNS --/: most/RBS of/IN it/PRP in/IN the/DT final/JJ hour/NN --/: it/PRP barely/RB managed/VBD *-2/-NONE- to/TO stay/VB this/DT side/NN of/IN chaos/NNS ./. 
Some/DT ``/`` circuit/NN breakers/NNS ''/'' installed/VBN */-NONE- after/IN the/DT October/NNP 1987/CD crash/NN failed/VBD their/PRP$ first/JJ test/NN ,/, traders/NNS say/VB 0/-NONE- *T*-1/-NONE- ,/, *-2/-NONE- unable/JJ *-3/-NONE- to/TO cool/VB the/DT selling/VBG panic/NN in/IN both/DT stocks/NNS and/CC futures/NNS ./. 

Мне нужно вычислить точность тегов ( Мудрый тег - Recall & Precision ), поэтому необходимо найти ошибку (если есть) в тегировании для каждой пары слово-тег.

Подход, о котором я думаю, состоит в том, чтобы просмотреть эти два текстовых файла в цикле и сохранить их в списке, а затем сравнить «два» списка элемент за элементом.

Этот подход кажется мне очень грубым, поэтому я хотел бы, чтобы вы, ребята, предложили какое-нибудь лучшее решение указанной выше проблемы.

На странице википедии :

В задаче классификации Ниже приведен фрагмент моего тестового корпуса, в котором каждое слово разделено соответствующим тегом POS на '/'.

No/RB ,/, it/PRP was/VBD n't/RB Black/NNP Monday/NNP ./.
But/CC while/IN the/DT New/NNP York/NNP Stock/NNP Exchange/NNP did/VBD n't/RB fall/VB apart/RB Friday/NNP as/IN the/DT Dow/NNP Jones/NNP Industrial/NNP Average/NNP plunged/VBD 190.58/CD points/NNS --/: most/JJS of/IN it/PRP in/IN the/DT final/JJ hour/NN --/: it/PRP barely/RB managed/VBD *-2/-NONE- to/TO stay/VB this/DT side/NN of/IN chaos/NN ./.
Some/DT ``/`` circuit/NN breakers/NNS ''/'' installed/VBN */-NONE- after/IN the/DT October/NNP 1987/CD crash/NN failed/VBD their/PRP$ first/JJ test/NN ,/, traders/NNS say/VBP 0/-NONE- *T*-1/-NONE- ,/, *-2/-NONE- unable/JJ *-3/-NONE- to/TO cool/VB the/DT selling/NN panic/NN in/IN both/DT stocks/NNS and/CC futures/NNS ./.

После тегирования корпуса это выглядит следующим образом:

No/DT ,/, it/PRP was/VBD n't/RB Black/NNP Monday/NNP ./. 
But/CC while/IN the/DT New/NNP York/NNP Stock/NNP Exchange/NNP did/VBD n't/RB fall/VB apart/RB Friday/VB as/IN the/DT Dow/NNP Jones/NNP Industrial/NNP Average/JJ plunged/VBN 190.58/CD points/NNS --/: most/RBS of/IN it/PRP in/IN the/DT final/JJ hour/NN --/: it/PRP barely/RB managed/VBD *-2/-NONE- to/TO stay/VB this/DT side/NN of/IN chaos/NNS ./. 
Some/DT ``/`` circuit/NN breakers/NNS ''/'' installed/VBN */-NONE- after/IN the/DT October/NNP 1987/CD crash/NN failed/VBD their/PRP$ first/JJ test/NN ,/, traders/NNS say/VB 0/-NONE- *T*-1/-NONE- ,/, *-2/-NONE- unable/JJ *-3/-NONE- to/TO cool/VB the/DT selling/VBG panic/NN in/IN both/DT stocks/NNS and/CC futures/NNS ./. 

Мне нужно рассчитать точность тегов ( Мудрый тег - Recall & Precision ), поэтому необходимо найти ошибку (если есть) в тегировании для каждой пары слово-тег.

Подход, о котором я думаю, состоит в том, чтобы просмотреть эти два текстовых файла в цикле и сохранить их в списке, а затем сравнить «два» списка элемент за элементом.

Этот подход кажется мне очень грубым, поэтому я хотел бы, чтобы вы, ребята, предложили какое-то лучшее решение указанной выше проблемы.

На странице википедии :

В задаче классификации Ниже приведен фрагмент моего тестового корпуса, в котором каждое слово разделено соответствующим тегом POS на '/'.

No/RB ,/, it/PRP was/VBD n't/RB Black/NNP Monday/NNP ./.
But/CC while/IN the/DT New/NNP York/NNP Stock/NNP Exchange/NNP did/VBD n't/RB fall/VB apart/RB Friday/NNP as/IN the/DT Dow/NNP Jones/NNP Industrial/NNP Average/NNP plunged/VBD 190.58/CD points/NNS --/: most/JJS of/IN it/PRP in/IN the/DT final/JJ hour/NN --/: it/PRP barely/RB managed/VBD *-2/-NONE- to/TO stay/VB this/DT side/NN of/IN chaos/NN ./.
Some/DT ``/`` circuit/NN breakers/NNS ''/'' installed/VBN */-NONE- after/IN the/DT October/NNP 1987/CD crash/NN failed/VBD their/PRP$ first/JJ test/NN ,/, traders/NNS say/VBP 0/-NONE- *T*-1/-NONE- ,/, *-2/-NONE- unable/JJ *-3/-NONE- to/TO cool/VB the/DT selling/NN panic/NN in/IN both/DT stocks/NNS and/CC futures/NNS ./.

После тегирования корпуса это выглядит следующим образом:

No/DT ,/, it/PRP was/VBD n't/RB Black/NNP Monday/NNP ./. 
But/CC while/IN the/DT New/NNP York/NNP Stock/NNP Exchange/NNP did/VBD n't/RB fall/VB apart/RB Friday/VB as/IN the/DT Dow/NNP Jones/NNP Industrial/NNP Average/JJ plunged/VBN 190.58/CD points/NNS --/: most/RBS of/IN it/PRP in/IN the/DT final/JJ hour/NN --/: it/PRP barely/RB managed/VBD *-2/-NONE- to/TO stay/VB this/DT side/NN of/IN chaos/NNS ./. 
Some/DT ``/`` circuit/NN breakers/NNS ''/'' installed/VBN */-NONE- after/IN the/DT October/NNP 1987/CD crash/NN failed/VBD their/PRP$ first/JJ test/NN ,/, traders/NNS say/VB 0/-NONE- *T*-1/-NONE- ,/, *-2/-NONE- unable/JJ *-3/-NONE- to/TO cool/VB the/DT selling/VBG panic/NN in/IN both/DT stocks/NNS and/CC futures/NNS ./. 

Мне нужно вычислить точность тегов ( Мудрый тег - Recall & Precision ), поэтому необходимо найти ошибку (если есть) в тегировании для каждой пары слово-тег.

Подход, о котором я думаю, состоит в том, чтобы просмотреть эти 2 текстовых файла и сохранить их в списке, а затем сравнить «два» списка элемент за элементом.

Этот подход кажется мне очень грубым, поэтому я хотел бы, чтобы вы, ребята, предложили какое-то лучшее решение указанной выше проблемы.

На странице википедии :

В задаче классификации

No/DT ,/, it/PRP was/VBD n't/RB Black/NNP Monday/NNP ./. 
But/CC while/IN the/DT New/NNP York/NNP Stock/NNP Exchange/NNP did/VBD n't/RB fall/VB apart/RB Friday/VB as/IN the/DT Dow/NNP Jones/NNP Industrial/NNP Average/JJ plunged/VBN 190.58/CD points/NNS --/: most/RBS of/IN it/PRP in/IN the/DT final/JJ hour/NN --/: it/PRP barely/RB managed/VBD *-2/-NONE- to/TO stay/VB this/DT side/NN of/IN chaos/NNS ./. 
Some/DT ``/`` circuit/NN breakers/NNS ''/'' installed/VBN */-NONE- after/IN the/DT October/NNP 1987/CD crash/NN failed/VBD their/PRP$ first/JJ test/NN ,/, traders/NNS say/VB 0/-NONE- *T*-1/-NONE- ,/, *-2/-NONE- unable/JJ *-3/-NONE- to/TO cool/VB the/DT selling/VBG panic/NN in/IN both/DT stocks/NNS and/CC futures/NNS ./. 

Мне нужно рассчитать точность тегирования ( Tag мудрый - Recall & Precision ), поэтому мне нужно найти ошибку (если есть) в тегировании для каждой пары слово-тег.

Подход, о котором я думаю, состоит в том, чтобы просмотреть эти два текстовых файла в цикле и сохранить их в списке, а затем сравнить «два» списка элемент за элементом.

Этот подход кажется мне очень грубым, поэтому я хотел бы, чтобы вы, ребята, предложили какое-то лучшее решение указанной выше проблемы.

На странице википедии :

В задаче классификации

No/DT ,/, it/PRP was/VBD n't/RB Black/NNP Monday/NNP ./. 
But/CC while/IN the/DT New/NNP York/NNP Stock/NNP Exchange/NNP did/VBD n't/RB fall/VB apart/RB Friday/VB as/IN the/DT Dow/NNP Jones/NNP Industrial/NNP Average/JJ plunged/VBN 190.58/CD points/NNS --/: most/RBS of/IN it/PRP in/IN the/DT final/JJ hour/NN --/: it/PRP barely/RB managed/VBD *-2/-NONE- to/TO stay/VB this/DT side/NN of/IN chaos/NNS ./. 
Some/DT ``/`` circuit/NN breakers/NNS ''/'' installed/VBN */-NONE- after/IN the/DT October/NNP 1987/CD crash/NN failed/VBD their/PRP$ first/JJ test/NN ,/, traders/NNS say/VB 0/-NONE- *T*-1/-NONE- ,/, *-2/-NONE- unable/JJ *-3/-NONE- to/TO cool/VB the/DT selling/VBG panic/NN in/IN both/DT stocks/NNS and/CC futures/NNS ./. 

Мне нужно рассчитать точность тегов ( Tag мудрый - Recall & Precision ), поэтому мне нужно найти ошибку (если есть) в тегировании для каждой пары слово-тег.

Подход, о котором я думаю, состоит в том, чтобы просмотреть эти два текстовых файла в цикле и сохранить их в списке, а затем сравнить «два» списка элемент за элементом.

Этот подход кажется мне очень грубым, поэтому я хотел бы, чтобы вы, ребята, предложили какое-нибудь лучшее решение указанной выше проблемы.

На странице википедии :

В задаче классификации точность для класса - это количество истинные положительные результаты (т.е. количество предметы правильно помечены как принадлежащие к положительному классу) делится на общее количество элементов, помеченных как принадлежащие к положительному классу (т.е. сумма истинных положительных результатов и ложных положительные, которые являются предметами неправильно помечены как принадлежащие к классу). Напомним, что в этом контексте определяется как количество истинных положительных результатов делится по общему количеству элементов, которые на самом деле принадлежат к положительному классу (т.е. сумма истинных положительных результатов и ложные негативы, то есть предметы, которые не были помечены как принадлежащие положительный класс, но должен был быть).

6
задан stressed_geek 10 March 2011 в 20:34
поделиться