Apesar das capacidades impressionantes de grandes modelos de linguagem (LLMs), como GPT-4o e Claude, de escrever ensaios e resolver equações em segundos, eles ainda são imperfeitos. O exemplo mais ...