Paraphrase Identification

Paraphrase Identification related modeling class

class pororo.tasks.paraphrase_identification.PororoParaIdFactory(task: str, lang: str, model: Optional[str])[source]

Bases: pororo.tasks.utils.base.PororoFactoryBase

Classification based paraphrase identification

Korean (brainbert.base.ko.paws)

  • dataset: PAWS-X (Yinfei Yang et al. 2019)

  • metric: Accuracy (83.75)

Examples

>>> paws("그는 빨간 자전거를 샀다", "그가 산 자전거는 빨간색이다.")
'Paraphrase'
>>> paws("그는 빨간 자전거를 샀다", "그가 타고 있는 자전거는 빨간색이다.")
'NOT Paraphrase'
>>> paws("그녀는 제주도에서 일출을 감상했다", "그녀는 일출을 감상하기 위해서 제주도에 갔다.")
'Paraphrase'
>>> paws("그녀는 제주도에서 일출을 감상했다", "그녀는 제주도에 갔다.")
'Paraphrase'
>>> paws("그녀는 제주도에서 일출을 감상했다", "그녀는 일출을 감상했다")
'Paraphrase'
>>> paws("그녀는 제주도에서 일출을 감상했다", "그녀는 강릉에서 일출을 감상했다")
'NOT Paraphrase'
static get_available_langs()[source]
static get_available_models()[source]
load(device: str)[source]

Load user-selected task-specific model

Parameters

device (str) – device information

Returns

User-selected task-specific model

Return type

object

class pororo.tasks.paraphrase_identification.PororoBertParaId(model, config)[source]

Bases: pororo.tasks.utils.base.PororoBiencoderBase

predict(sent_a: str, sent_b: str, **kwargs)[source]

Conduct paraphrase identification

Parameters
  • sent_a (str) – first sentence to be encoded

  • sent_b (str) – second sentence to be encoded

Returns

paraphrase identified result - Not Paraphrase or Paraphrase

Return type

str