Llms Benchmarking Python Packages | PyRank

parea-ai

Python SDK for experimenting, testing, evaluating & monitoring LLM-powered applications - Parea AI (YC S23)

3K 82 11

multinear

Develop reliable AI apps

395 45 1

genderbench

Evaluation suite for gender biases in LLMs.

366 5 1

liah

needle in a haystack for LLMs

98 2 0

gender-bench

Evaluation suite for gender biases in LLMs.

13 5 1