Tema: Glosario | PROGRAM EN CIENCIAS BIOLÓGICAS - P2269-TEÓRICO-PRACTICO-N0026-06-N01 | EVA PUCE POSGRADOS MAESTRIASENLINEA 2025-2025

Glosario
- Clase 1
  
  BASH
  
  BASH es un acrónimo que significa "Bourne Again Shell" y es un intérprete de comandos (shell) que fue desarrollado como una mejora del original Bourne Shell (sh), creado por Stephen Bourne. BASH es una de las shells más populares en sistemas operativos basados en Unix, como Linux y macOS y es el intérprete de comandos de línea de código abierto utilizado en la mayoría de las distribuciones de Linux y Unix.
  
  Oracle Virtualbox
  
  Es un emulador de máquinas virtuales de código abierto desarrollado por Oracle Corporation que permite crear varias máquinas virtuales dentro de una única máquina física, lo que facilita la prueba y despliegue de diferentes sistemas operativos y aplicaciones.
  
  LXDE
  
  Es un entorno de escritorio ligero y rápido diseñado para computadoras con recursos limitados o sistema operativos lentos.
  
  Biolinux
  
  Es una distribución de Linux específica para la bioinformática que incluye software y herramientas populares utilizadas en este campo, como Biopython y Bedtools.
  
  Máquina anfitriona
  
  Es la computadora o servidor en el que se ejecuta una o varias máquinas virtuales. También es conocida como host.
  
  Máquina huésped
  
  Es una máquina virtual creada dentro de una máquina anfitriona que puede ejecutar un sistema operativo diferente al del anfitrión, lo que permite instalar y utilizar software o aplicaciones específicas sin interferir con el sistema operativo original. También es conocida como cliente o invitado.
  
  Lubuntu
  
  Es una distribución de Linux basada en Ubuntu que utiliza el entorno de escritorio LXDE (Lightweight X11 Desktop Environment).
  
  R
  
  Es un entorno de análisis estadístico y gráficos basado en el lenguaje de programación. Es muy popular entre los científicos, investigadores y estadísticos debido a su potencia y flexibilidad.
  
  Python
  
  Es un lenguaje de programación de alto nivel diseñado para ser fácil de aprender y utilizar en todas las tareas. Es muy popular entre los desarrolladores debido a su sintaxis clara, legibilidad y facilidad para la creación de scripts e interfaces gráficas.
- Clase 2
  
  lsb_release
  
  Comando que muestra la información del sistema operativo instalado en una máquina, como la distribución y la versión.
  
  Uname -a
  
  Comando que proporciona información sobre el kernel de Linux y detalles del sistema operativo.
  
  Host
  
  Comando que permite obtener la información sobre un nombre de dominio o una dirección IP, como su dirección IP asociada.
  
  Pwd
  
  Comando que muestra el directorio de trabajo actual en la línea de comandos.
  
  Cd
  
  Comando que se utiliza para cambiar el directorio de trabajo en la terminal.
  
  Grep
  
  Comando utilizado para buscar un patrón de texto específico dentro de archivos o cadenas de texto.
  
  Wc
  
  Comando que cuenta las líneas, palabras o caracteres en un archivo o entrada de texto.
  
  Cut
  
  Comando utilizado para dividir y extraer secciones específicas de un archivo o entrada de texto.
  
  Sort
  
  Comando que ordena las líneas de un archivo o entrada de texto en orden ascendente o descendente.
  
  Awk
  
  Lenguaje de programación y comando que se utiliza para manipular y procesar archivos de texto, especialmente aquellos que tienen una estructura tabular.
  
  Bioawk
  
  Versión especializada de AWK diseñada para trabajar con archivos biológicos, como archivos de secuencias FASTA y GFF.
  
  Tubería
  
  Caracter (|) que permite encadenar varios comandos, de modo que la salida de un comando se convierte en la entrada de otro.
  
  Redireccionamiento
  
  Técnica que permite cambiar el flujo de entrada o salida de un comando, dirigiendo los resultados a un archivo o tomando la entrada de un archivo en lugar de la terminal.
- Clase 3
  
  Bash
  
  Bash (acrónimo de Bourne Again Shell) es un intérprete de comandos y lenguaje de scripting utilizado en sistemas Unix y basados en Unix, como Linux y macOS. Bash permite a los usuarios interactuar con el sistema operativo a través de la línea de comandos para realizar tareas como gestionar archivos, ejecutar programas, y automatizar procesos mediante scripts. Es uno de los más populares debido a su flexibilidad y compatibilidad con una amplia variedad de entornos.
  
  Script
  
  Archivo de texto que contiene una serie de comandos que se ejecutan secuencialmente por un intérprete, como Bash. Los scripts son usados para automatizar tareas repetitivas, configurar sistemas, procesar datos, entre otras aplicaciones. En el contexto de Bash, los scripts están escritos en su lenguaje específico y suelen tener extensiones como .sh o ninguna.
  
  Bash Scripting
  
  Práctica de escribir scripts utilizando el lenguaje del intérprete Bash. Esto incluye combinar comandos del sistema, estructuras de control (como bucles y condiciones), y funciones para realizar tareas más avanzadas y automatizadas. El Bash scripting es ampliamente usado en la administración de sistemas, la programación de tareas cron (automatización temporal), y el procesamiento de datos.
  
  Shebang
  
  Es una secuencia de caracteres que aparece al inicio de un archivo de texto ejecutable en sistemas Unix y basados en Unix. Su propósito es indicar al sistema qué intérprete debe utilizar para ejecutar el contenido del archivo. El shebang comienza con #!, seguido por la ruta absoluta del intérprete deseado, por ejemplo; #!/bin/bash
  
  Hashbang
  
  Es un término coloquial que se utiliza como sinónimo de shebang. El nombre proviene de la combinación de los caracteres # (hash) y ! (bang). Aunque los términos son intercambiables, "shebang" es más comúnmente utilizado en contextos técnicos y documentación oficial.
  
  #!/bin/bash:
  
  Conocida como shebang o hashbang aparece al inicio de los scripts de Bash. Indica al sistema operativo que el archivo debe ser ejecutado usando el intérprete especificado.
  
  Parámetros Posicionales $i:
  
  Son variables predefinidas en Bash que representan los argumentos alimentados a un script o función desde la línea de comandos. Cada argumento se asigna automáticamente a una variable numerada según su posición en la lista de argumentos. Así, por ejemplo; “$1: Primer argumento”, “$2: Segundo argumento”, “3: Tercer argumento”, … y así sucesivamente, hasta $n, dependiendo del número de argumentos proporcionados.
  
  $#
  
  En Bash, la variable especial $# representa el número de argumentos posicionales que se pasaron al script o función en el momento de su ejecución. Es útil para determinar cuántos argumentos fueron proporcionados por el usuario y para controlar la lógica del script en función de esa cantidad.
  
  $0
  
  En Bash, la variable $0 es un parámetro especial que representa el nombre del script o comando que se está ejecutando. Su valor depende del contexto en el que se ejecuta el script. Así en un script $0 contiene el nombre del archivo del script, ya sea como ruta absoluta o relativa, dependiendo como fue lanzado.
  
  $* y $@
  
  En Bash, $* y $@ son variables especiales que representan todos los argumentos posicionales pasados a un script o función, pero tienen diferencias sutiles en cómo manejan esos argumentos, especialmente cuando se utilizan dentro de comillas dobles (").
  
  $*: Representa todos los argumentos como una sola cadena y si se utiliza entre comillas dobles ("$*"), todos los argumentos se concatenan en una única cadena, separados por el primer carácter del Internal Field Separator (IFS) (por defecto, un espacio).
  
  $@: Representa todos los argumentos, pero cada uno se trata como un elemento individual. Si se utiliza entre comillas dobles ("$@"), cada argumento se conserva como una unidad separada, lo que es útil para preservar espacios o caracteres especiales en los argumentos.
  
  IFS
  
  La variable IFS (Internal Field Separator) es una variable especial en Bash que determina los caracteres utilizados para dividir una cadena de texto en campos o tokens durante ciertas operaciones, como la iteración de bucles, la lectura de entradas o la expansión de variables. Por defecto, IFS contiene los caracteres: “Espacio ( )”, “Tabulación (\t)” y “Nueva línea (\n)”, esto significa que, en ausencia de una personalización explícita, Bash utiliza estos caracteres para separar campos.
  
  ZCAT
  
  El comando zcat se utiliza en sistemas Unix/Linux para visualizar el contenido de archivos comprimidos en formato gzip (.gz) sin necesidad de descomprimirlos físicamente en el disco. Es especialmente útil cuando se trabaja con archivos grandes y se quiere ahorrar espacio y tiempo.
  
  ZGREP
  
  El comando zgrep permite buscar patrones de texto dentro de archivos comprimidos en formato gzip (.gz) sin necesidad de descomprimirlos previamente. Combina la funcionalidad de grep (búsqueda de patrones) y zcat (lectura de archivos comprimidos).
  
  FASTA
  
  FASTA es uno de los formatos más utilizados para representar secuencias biológicas. Un archivo FASTA contiene secuencias de ADN, ARN o proteínas precedidas por un encabezado que comienza con un signo de mayor (>).
  
  FASTQ
  
  Es un formato que contiene más información que un archivo FASTA, ya que incorpora la calidad de las lecturas de secuenciación. Un archivo FASTQ tiene cuatro líneas para cada secuencia: el identificador, la secuencia, un separador (+), y la línea con los valores de calidad.
  
  GFF
  
  Los archivos GFF son un estándar ampliamente utilizado en bioinformática para describir características genómicas de secuencias de ADN, ARN o proteínas. Estos archivos contienen información estructurada sobre anotaciones, como genes, exones, intrones, regiones promotoras, sitios de inicio de transcripción, y otros elementos funcionales.
  
  SSH (Secure Shell)
  
  Protocolo de red que permite la conexión segura a un servidor remoto a través de una red no segura. SSH proporciona autenticación y cifrado para proteger la comunicación, permitiendo a los usuarios ejecutar comandos, transferir archivos y gestionar sistemas de manera remota con seguridad.
- Clase 4
  
  Transcripción (ADN)
  
  Proceso biológico mediante el cual la información genética de una cadena de ADN se copia en una molécula de ARN mensajero (ARNm). Esta conversión se realiza gracias a la enzima ARN polimerasa, que "lee" la hebra molde de ADN (orientación 3'→5') y sintetiza una cadena complementaria de ARN (orientación 5'→3'). El ARN resultante sirve como intermediario para trasladar las instrucciones genéticas desde el núcleo celular hasta los ribosomas, donde se traducirán en proteínas. Es el primer paso de la expresión génica y no implica la replicación del ADN original.
  
  Shebang
  
  En sistemas Unix/Linux, el shebang (también llamado hashbang) es una línea especial al inicio de un script (por ejemplo, #!/bin/bash) que indica al sistema operativo qué intérprete debe usar para ejecutar el código. Compuesto por los caracteres #! seguidos de la ruta del ejecutable (como /bin/bash para Bash o /usr/bin/python3 para Python), permite que el script se autodetermine y se ejecute directamente desde la terminal sin necesidad de especificar manualmente el intérprete. Es fundamental para garantizar la portabilidad y funcionalidad de los scripts en diferentes entornos.
  
  Cron
  
  Utilidad en sistemas Unix/Linux que define y gestiona tareas programadas (cron jobs) mediante un archivo de configuración (o tabla cron), donde cada línea especifica un comando o script a ejecutar en intervalos regulares (minuto, hora, día, etc.), permitiendo automatizar procesos como copias de seguridad, actualizaciones o ejecución de programas sin intervención manual. Se accede y edita con el comando crontab -e, y sigue el formato: .
  
  stderr (Standard Error):
  
  Flujo de salida estándar (file descriptor 2) utilizado por programas y comandos en sistemas Unix/Linux para enviar mensajes de error, advertencias o información de depuración. A diferencia de stdout (Standard Output), que se usa para la salida normal de un programa, stderr está diseñado específicamente para manejar errores de manera independiente, lo que permite redirigir o suprimir estos mensajes sin afectar la salida principal. Por defecto, stderr se muestra en la terminal, pero puede redirigirse a archivos, descartarse (usando /dev/null) o combinarse con stdout para un manejo más flexible en scripts y comandos.
  
  find
  
  Comando en sistemas Unix/Linux que permite buscar archivos y directorios en una jerarquía de directorios basándose en criterios específicos, como nombre, tipo, tamaño, fecha de modificación o permisos. Es una herramienta poderosa y flexible que admite la ejecución de acciones sobre los resultados encontrados (por ejemplo, eliminar, mover o ejecutar comandos).
- Clase 5
  
  R
  
  Lenguaje de programación usado para realizar procedimientos estadísticos y gráficos de alto nivel, este lenguaje fue creado en 1993 por los profesores e investigadores Robert Gentleman y Ross Ihaka. Inicialmente el lenguaje se usó para apoyar los cursos que tenían a su cargo los profesores, pero luego de ver la utilidad de la herramienta desarrollada, decidieron colocar copias de R en StatLib. A partir de 1995 el código fuente de R está disponible bajo licencia GNU GPL para sistemas operativos Windows, Macintosh y distribuciones Unix/Linux (Hernández, Usuga, 2021).
  
  Python
  
  Lenguaje de programación multipropósito de alto nivel y fácil de aprender, utilizado en una variedad de aplicaciones como el desarrollo web, la inteligencia artificial, el análisis de datos y la automación de tareas, destacándose por su sintaxis clara y versatilidad.
  
  BiocManager
  
  Es una herramienta en el lenguaje de programación R diseñada para la gestión de paquetes bioinformáticos, especialmente aquellos que forman parte del proyecto Bioconductor.
  
  Bioconductor
  
  Es una plataforma para el análisis de datos en biología molecular. BiocManager actúa como un gestor de versiones y dependencias, facilitando la instalación, actualización y administración de paquetes bioinformáticos de manera eficiente y reproducible; está integrado dentro del entorno de R, lo que permite un workflow fluido para los investigadores en biología computacional.
  
  BioString
  
  Es una clase en el entorno de programación R, específicamente dentro del paquete IRanges, diseñada para representar y manipular secuencias biológicas, como cadenas de DNA o RNA. Sirve como un contenedor eficiente para almacenar información sobre las coordenadas y propiedades de estas secuencias, facilitando operaciones comunes en el análisis de datos genómicos, como la búsqueda, el corte y la fusión de intervalos. BioString es un componente fundamental en el ecosistema Bioconductor, ampliamente utilizado en investigación biomédica para el procesamiento y análisis de datos genómicos complejos.
  
  getwd()
  
  Es una función en R que devuelve el directorio de trabajo actual si este existe o de otra manera devuelve NULL.
  
  setwd()
  
  En R permite cambiar el directorio actual de trabajo a uno nuevo, de acuerdo a la ruta especificada como argumento.
  
  Objetcs()
  
  En R esta función sirve para listar todos los objetos (variables, datasets, funciones, etc.) disponibles en el entorno de trabajo actual.
- Clase 6
  
  seqinr
  
  Es un paquete de R especializado en el análisis y manejo de secuencias biológicas (ADN, ARN, proteínas), que permite acceder a bases de datos como GenBank mediante el sistema ACNUC, importar/exportar archivos en formatos como FASTA o GenBank, calcular estadísticas clave (contenido de GC, frecuencias de n-meros como dinucleótidos), realizar análisis evolutivos (distancias genéticas con modelos como TN93, árboles filogenéticos), procesar proteínas (peso molecular, punto isoeléctrico), visualizar datos (gráficos de barras, histogramas) y manejar secuencias mediante funciones prácticas, como leer un archivo FASTA con read.fasta() o exportar resultados con write.fasta(), se debe considerar que su uso intensivo de memoria puede limitar su aplicación en conjuntos de datos muy grandes.
  
  Traducción (ADN a proteínas)
  
  Proceso biológico mediante el cual la información genética contenida en la secuencia de nucleótidos del ácido desoxirribonucleico (ADN) se convierte en una secuencia de aminoácidos que forman una proteína. Este proceso implica la transcripción del ADN en ácido ribonucleico mensajero (ARNm), seguida de la traducción del ARNm en una cadena polipeptídica mediante el uso de ribosomas, donde cada secuencia de tres nucleótidos (codón) especifica un aminoácido determinado. La secuencia resultante de aminoácidos se pliega y se procesa para formar una proteína funcional, que realizará una función específica en la célula.
  
  Python
  
  Lenguaje de programación alto nivel, interpretado y orientado a objetos, conocido por su sintaxis clara y enfoque en legibilidad. Fue creado por Guido van Rossum en los años 90 y se destaca por ser versátil, eficiente y por contar con una gran biblioteca estándar. Es ampliamente utilizado para scripting, desarrollo web, análisis de datos y más, gracias a su naturaleza modular y al apoyo de una comunidad activa.
- Clase 7
  
  Datos ómicos
  
  Conjuntos de datos biológicos masivos que provienen de las tecnologías de alto rendimiento utilizadas para analizar moléculas dentro de células, tejidos u organismos completos. El término "ómico" proviene del sufijo "-oma", que indica totalidad o conjunto. Estos datos permiten estudiar diferentes aspectos biológicos a gran escala, facilitando una comprensión más profunda de la biología de los organismos.
  
  Biopython
  
  Proyecto de código abierto que proporciona herramientas y módulos de Python para el análisis de datos en biología computacional y bioinformática. Diseñado para manejar datos biológicos como secuencias de ADN/ARN, estructuras proteicas o información genómica, incluye funcionalidades para manipulación de secuencias, lectura/escritura de formatos de archivo comunes (FASTA, GenBank, PDB), acceso a bases de datos biológicas (NCBI, UniProt) y ejecución de algoritmos como alineamientos, análisis filogenéticos o modelado estructural.
  
  Bio.Entrez
  
  Un módulo de la biblioteca Biopython que proporciona una interfaz programática para acceder a las bases de datos de Entrez del NCBI (National Center for Biotechnology Information). Permite realizar búsquedas, recuperar datos y analizar información biológica, como secuencias de ADN, proteínas, publicaciones científicas y otros recursos biomédicos, de manera automatizada y eficiente. Es una herramienta esencial para la bioinformática y el análisis de datos biológicos a gran escala.
  
  BioPandas
  
  Biblioteca de Python de código abierto diseñada para el análisis de datos estructurales en biología molecular, centrada en facilitar la manipulación de archivos biomoleculares como Protein Data Bank (PDB), MOL2 y mmCIF mediante su integración con pandas DataFrames Permite cargar, filtrar y analizar estructuras de proteínas y moléculas pequeñas directamente en DataFrames, simplificando tareas como el cálculo de la desviación cuadrática media (RMSD), visualización de factores B o conversión de estructuras a secuencias primarias.
  
  Scikit-bio
  
  Biblioteca de Python de código abierto y licencia BSD, diseñada para el análisis de datos biológicos en bioinformática. Proporciona estructuras de datos eficientes (como secuencias genómicas y árboles filogenéticos), algoritmos escaxlables (alineación, análisis de comunidades microbianas, modelado multi-ómico) y recursos educativos para investigadores, educadores y desarrolladores.
  
  Codón de inicio
  
  Es una secuencia de tres nucleótidos (triplete) en el ARN mensajero (ARNm) que marca el inicio de la traducción, el proceso de síntesis de proteínas. En la mayoría de los organismos, el codón de inicio es AUG (adenina-uracilo-guanina en ARN o ATG en ADN), que codifica el aminoácido metionina en eucariontes y una forma modificada (N-formilmetionina) en procariotas. Este codón establece el marco de lectura correcto para la traducción y es esencial para que los ribosomas inicien la unión de los aminoácidos en la cadena polipeptídica. En algunos casos, como en mitocondrias o bacterias, pueden emplearse codones alternativos (ej. GUG o UUG) como inicio.
  
  Codón de parada (o codón de terminación)
  
  Es un triplete en el ARNm que señala el final de la traducción. Los tres codones de parada universales son UAA, UAG y UGA (en ADN: TAA, TAG y TGA, respectivamente). A diferencia de los codones que codifican aminoácidos, estos no están asociados a ningún ARN de transferencia (ARNt), sino que son reconocidos por proteínas llamadas factores de liberación, que provocan la separación del ribosoma y la liberación de la cadena polipeptídica terminada. Su presencia garantiza la síntesis precisa de proteínas al evitar la elongación incorrecta de la secuencia.
- Clase 8
  
  Datos ómicos
  
  Conjuntos de datos biológicos masivos que provienen de las tecnologías de alto rendimiento utilizadas para analizar moléculas dentro de células, tejidos u organismos completos. El término "ómico" proviene del sufijo "-oma", que indica totalidad o conjunto. Estos datos permiten estudiar diferentes aspectos biológicos a gran escala, facilitando una comprensión más profunda de la biología de los organismos.
  
  Ranged Summarized Experiment
  
  Es una estructura de datos en Bioconductor para almacenar y manipular datos de experimentos genómicos, como RNA-seq, ChIP-seq, o variantes genéticas, donde las filas representan características genómicas (por ejemplo, genes, regiones de unión, o variantes) y las columnas representan muestras.
  
  Análisis de expresión génica diferencial
  
  (DEA, por sus siglas en inglés Differential Expression Analysis), específicamente cuando se trabaja con datos generados por la técnica RNA sequencing (RNA-seq), es un proceso estadístico utilizado para identificar genes cuya expresión varía significativamente entre diferentes condiciones o grupos experimentales. Este tipo de análisis permite comprender cómo las expresiones génicas cambian en respuesta a factores como enfermedades, tratamientos o manipulaciones genéticas. El DEA se centra en comparar niveles de expresión génica entre muestras para detectar cambios estadísticamente significativos. Aunque los datos de RNA-seq son ricos en información, su complejidad requiere el uso de herramientas y metodologías específicas para extraer conocimientos biológicos útiles.
  
  Pip
  
  Es el gestor de paquetes estándar para Python, utilizado para instalar, actualizar y gestionar bibliotecas y dependencias de software escritas en este lenguaje. A través de comandos simples, esta herramienta permite descargar e instalar paquetes desde el repositorio público de bibliotecas de código abierto Python Package Index (PyPI), resolviendo automáticamente las dependencias entre paquetes, asegurándose que todas las bibliotecas necesarias estén instaladas y sean compatibles entre sí.

Diagrama de temas

Glosario

Clase 1

Clase 2

Clase 3

Clase 4

Clase 5

Clase 6

Clase 7

Clase 8