Aplicación web que procesa archivos (PDF, DOCX, PPTX) o transcripciones de YouTube para generar:
¿Por qué este proyecto?
Este generador automatiza la creación de resúmenes y cuestionarios a partir de materiales de estudio, ayudando a estudiantes y profesores a reducir el tiempo de estudio y proporcionar evaluaciones rápidas basadas en contenidos ya existentes. Es ideal para situaciones en las que se requiere procesar grandes cantidades de texto o contenido audiovisual de manera eficiente.
¿A quién va dirigido?
El sistema está diseñado para ser utilizado por:
Umbral óptimo: 0.85 (configurable en el código)
El histograma muestra cómo se realiza el análisis de similitud para determinar la relación entre las partes del texto. Un umbral de similitud más alto puede mejorar la precisión de los resúmenes.
Selección entre archivos locales o URL de YouTube
La interfaz es fácil de usar y permite a los usuarios cargar archivos locales o pegar enlaces de YouTube directamente para comenzar a generar resúmenes y cuestionarios.
Reducción de 728 palabras → 120 palabras (83% más conciso)
El resumen es generado usando técnicas de NLP como TextRank, permitiendo una reducción considerable en la longitud del texto sin perder la esencia del contenido.
Las 5 preguntas con opciones múltiples y explicaciones se pueden modificar en esta sección de codigo, donde se debe considerar que a mayor cantidad de preguntas mayor es el coste en tokens de la consulta y por ende la cantidad de solicitudes a la api se reduce, por eso para este caso se usaron 5
El cuestionario generado es interactivo y permite a los usuarios evaluar su comprensión del material. Además, ofrece explicaciones detalladas para cada respuesta.
flowchart TD A[Entrada] -->|Archivo PDF/DOCX/PPTX| B(Extracción de Texto) A -->|URL de YouTube| C(Transcripción API) B --> D[Texto Procesado] C --> D D --> E{Modo Seleccionado} E -->|Generar Resumen| F[spaCy + TextRank] E -->|Generar Cuestionario| G[Llama3 70B\nvía NVIDIA API] F --> H[Resumen Automático\nReducción 80% palabras] G --> I[Cuestionario JSON\n5 preguntas con opciones] H --> J[(Salida:\nMarkdown/Interfaz)] I --> J K[Streamlit] -->|Interfaz Web| L[Usuario Final] %% Estilos classDef tech fill:#4CAF50,color:white,stroke:#388E3C; classDef data fill:#2196F3,color:white,stroke:#1976D2; classDef output fill:#FF9800,color:white,stroke:#F57C00; classDef tool fill:#9C27B0,color:white,stroke:#7B1FA2; class B,C,F,G,K tech; class D,A data; class H,I,J output; class L tool;
classDiagram class Streamlit { +file_uploader() +text_input() +button() } class spaCy { +load(model_name) +add_pipe(algorithm) } class NVIDIA_API { +base_url: string +model: string } Streamlit --> spaCy : Usa para Streamlit --> NVIDIA_API : Consulta
PyPDF2
para PDFs y python-docx
para documentos de Word. Luego, se procesa para generar el resumen o cuestionario.Nombre | Uso | Licencia |
---|---|---|
es_core_news_md | Procesamiento de texto en español | MIT |
Llama 3 70B | Generación de preguntas | Propietaria (NVIDIA) |
Se requiere descargar la extension Markdown Preview Mermaid Support
-esto para que se visualizen de buena manera los diagramas en formato mermaid
⚠️ Limitaciones:
🛠️ Código disponible en: GitHub/repo
There are no datasets linked
There are no datasets linked